En cuestión de seis semanas, los dos agentes de programación que de verdad usan mis clientes estrenaron cerebro nuevo. OpenAI metió GPT-5.5 dentro de Codex el 23 de abril. Anthropic soltó Claude Opus 4.8 dentro de Claude Code el 28 de mayo. Las dos compañías reclaman la frontera, y las dos tienen razón según qué benchmark leas. Ese es exactamente el problema cuando un desarrollador me pregunta, en cristiano, cuál de los dos pagar.
Llevo el éxito de cliente en Aivy, una agencia de automatización con IA, y he pasado las últimas dos semanas ejecutando los dos agentes sobre repositorios reales de clientes, no sobre apps de demo. La respuesta honesta es más interesante que un único ganador. Opus 4.8 encabeza la mayoría de benchmarks de titular y sostiene una base de código mucho mayor en la cabeza. Codex con GPT-5.5 llega antes a un cambio que funciona y, en tareas idénticas, quema entre tres y cuatro veces menos tokens. Para un equipo que paga dinero real, esa brecha importa tanto como un benchmark.
Esta guía compara Claude Code y Codex como debería sopesarlos un responsable de ingeniería: benchmarks, el efecto harness que decide esos benchmarks en silencio, límites de contexto, coste en tokens, velocidad, cuotas y el ángulo de la residencia de datos y el precio. Las gráficas de abajo son la parte que me gustaría que publicara cada proveedor. Si solo lees el quick pick, ya tienes la respuesta estructural.
Claude Code vs Codex de un vistazo
Las dos herramientas riman. Cada una es un agente que vive en tu terminal, edita archivos, ejecuta comandos y comprueba su propio trabajo, con superficies cloud e IDE alrededor. Las diferencias que importan son el modelo por defecto, cuánto contexto sostienen, cuántos tokens gastan y para qué están afinadas.
| Aspecto | Claude Code | Codex |
|---|---|---|
| Fabricante | Anthropic | OpenAI |
| Modelo por defecto | Claude Opus 4.8 | GPT-5.5 |
| Superficies | Terminal, IDE, cloud, API | CLI, cloud/web, IDE, GitHub |
| Ventana de contexto | 1M de tokens | 400K (≈258K efectivos) |
| Intelligence Index | 61,4 (1º) | 60.2 |
| Eficiencia de tokens | Verboso | 3-4x más contenido |
| Precio de entrada | 20 $/mes (Pro) | 20 $/mes (Plus) |
| Mejor para | Trabajo multiarchivo y de horizonte largo | Bucles de terminal rápidos y acotados |
| Modelo superior opcional | Claude Fable 5 (80,0% SWE-bench Pro) | GPT-5.5 es el techo |
Precios en USD, mayo de 2026. Intelligence Index y datos de tokens de Artificial Analysis.
Actualización de junio de 2026: Anthropic ha lanzado desde entonces Claude Fable 5, un nivel nuevo por encima de Opus 4.8 que Claude Code puede ejecutar de forma opcional con el comando /model fable. Marca un 80,0% en SWE-bench Pro frente al 69,2% de Opus 4.8 y el 58,6% de GPT-5.5, a 10/50 dólares por millón de tokens. La comparativa de abajo cubre los modelos por defecto; los números completos están en nuestro análisis de Fable 5.
Qué son exactamente Claude Code y Codex
Los dos productos son más que un modelo. Codex es el sistema agéntico de programación de OpenAI repartido en cuatro superficies que comparten una cuenta: una CLI open source que ejecutas en la terminal, un agente cloud con sandbox al que delegas tareas, una extensión de IDE y una integración con GitHub. Su modelo recomendado por defecto es GPT-5.5, el primer modelo base totalmente reentrenado de OpenAI desde GPT-4.5. A lo largo de mayo, OpenAI publicó actualizaciones de Codex casi semanales, convirtiendo la CLI en un runtime autónomo persistente con un modo objetivo por defecto y uso de ordenador.
Claude Code es el agente terminal-first de Anthropic, ahora con Opus 4.8 por defecto y accesible desde las apps de Claude, la API, Amazon Bedrock, Vertex AI y Microsoft Foundry. Sus piezas son los subagentes, las skills y los slash commands, más una research preview llamada Dynamic Workflows. Esta última deja que Claude escriba un script que orquesta de decenas a cientos de subagentes en segundo plano, con tope de 1.000 por ejecución, de modo que la lógica de orquestación vive en código en vez de comerse la ventana de contexto principal. Anthropic la empareja con un ajuste ultracode que combina el máximo esfuerzo de razonamiento con la orquestación automática de workflows. Los dos son agentes de terminal antes que asistentes de editor; si prefieres que la IA viva dentro de tu IDE, esa es la categoría que cubre nuestra guía Cursor vs GitHub Copilot. Y si te pica la curiosidad por cómo es montar un agente de estos en tu propia máquina, en la guía de OpenClaw, un agente de IA en local, enseñamos uno por dentro.
Claude Code vs Codex en los benchmarks
En el conjunto de números publicados, Opus 4.8 lidera más veces de las que persigue, pero la foto no es un barrido. En los benchmarks donde ambos proveedores publican cifra, el modelo de Claude Code gana la programación agéntica y el razonamiento, mientras el de Codex es genuinamente más fuerte en tareas de estilo terminal. Léelos como estimaciones puntuales, no como veredictos: varias brechas caen dentro de las barras de error.
Benchmarks de programación y razonamiento: Opus 4.8 vs GPT-5.5
Más alto es mejor, eje 0-100%. Fuentes: system card de Opus 4.8 y Artificial Analysis (Terminal-Bench Hard).
La brecha de SWE-bench Pro, 69,2% frente a 58,6%, es la que Anthropic pone por delante, y es el benchmark más cercano al trabajo real: resolver una incidencia genuina de GitHub a lo largo de un repositorio en una pasada. Conviene saber que ahí los dos números son mediciones de la propia Anthropic, incluida la cifra de GPT-5.5, así que trata el tamaño de la brecha como indicativo y no como dogma. En los marcadores independientes de Terminal-Bench, GPT-5.5 se pone ligeramente por delante. Y la otra mitad del tablero, Claude contra Google, la cubrimos en nuestra comparativa Claude vs Gemini.
Claude Code contra Codex en programación: el harness importa
Aquí está el detalle que decide la mayoría de discusiones de benchmarks de terminal, y casi nadie lo menciona. El mismo modelo puntúa muy distinto según el harness, el andamiaje que lo ejecuta. En Terminal-Bench 2.1, GPT-5.5 saca un 78,2% en el harness público neutral pero un 83,4% en la propia Codex CLI de OpenAI. Opus 4.8 saca un 74,6% en el mismo harness público y un 78,9% en su Claude Code nativo. Así que en su propio terreno, los dos saltan unos cuatro puntos.
El efecto harness: Terminal-Bench 2.1, mismos modelos, distinto andamiaje
Eje 0-100%. Harness nativo frente a harness público neutral. Fuente: ranking de tbench.ai (±2,2-2,5).
La lección no es quién gana por un 0,7%. Es que el agente que envuelve al modelo, cómo gestiona el contexto, los reintentos y las llamadas a herramientas, está haciendo trabajo de verdad. Cuando comparas Claude Code y Codex estás comparando dos harnesses tanto como dos modelos, y por eso tus propios resultados sobre tu propio stack son el benchmark que cuenta. Es la misma lógica que aplicamos en nuestra auditoría de automatización con IA: medir sobre tu proceso real, no sobre una demo.
Contexto largo: Claude Code y Codex ante bases de código grandes
Esta es la diferencia más clara y menos ambigua entre los dos. Claude Code trae una ventana de contexto de un millón de tokens por defecto. Codex ejecuta GPT-5.5 con una ventana de 400K, y los desarrolladores sitúan la cifra usable en sesión más cerca de 258K una vez reservados los presupuestos de entrada y salida. En un monorepo grande, esa es la diferencia entre sostener el servicio entero en contexto y estar re-alimentándolo constantemente. Solo Gemini juega en esa liga de contexto, una carrera que repasamos en nuestra comparativa ChatGPT vs Gemini.
Ventana de contexto usable dentro del agente
Tokens sostenidos en una sesión. Fuentes: documentación de Anthropic; lanzamiento de GPT-5.5 de OpenAI; issues de openai/codex.
El tamaño es una cosa y usarlo bien es otra, y Opus ha mejorado con fuerza en lo segundo. En GraphWalks, la prueba de razonamiento de contexto largo de Anthropic, la precisión con un millón de tokens de contexto subió del 16% en Opus 4.6 al 40% en 4.7 y al 68% en 4.8. Con 256K tokens la misma línea va del 61% al 86%.
La precisión de Claude en contexto largo sube rápido (GraphWalks F1)
Más alto es mejor. Fuente: System Card de Claude Opus 4.8, tabla 8.9.A.
Tokens y coste: Claude Code frente a Codex
Aquí es donde Codex devuelve el golpe, y fuerte. En tareas de programación idénticas, las pruebas independientes encontraron que Claude Code gasta entre tres y cuatro veces más tokens que Codex: 4,2 veces en un plugin de Figma, 3,6 en una integración de API, 3,2 en una app de turnos. El gasto extra de Claude compra una salida más minuciosa y determinista, pero en una factura por token se acumula rápido.
Tokens usados en la misma tarea: Codex vs Claude Code
Barras a escala dentro de cada tarea. Fuente: Morph LLM, pruebas de tarea idéntica, mayo de 2026.
En tarifas de lista de la API la foto es mixta. Opus 4.8 cuesta 5 dólares por millón de tokens de entrada y 25 por millón de salida, mientras GPT-5.5 está en 5 y 30, así que Opus es un 17% más barato por token de salida. Pero más barato por token no significa más barato por tarea cuando el modelo escribe tres o cuatro veces más tokens. Ejecutando la misma prueba de inteligencia de Artificial Analysis, Opus 4.8 gastó 110 millones de tokens por 4.686 dólares frente a los 75 millones de GPT-5.5 por 3.357: aproximadamente un 40% más para ganar el índice por un solo punto.
Coste de ejecutar el Intelligence Index completo (USD)
Una pasada de evaluación al máximo esfuerzo. Fuente: Artificial Analysis, mayo de 2026.
Dos matices mantienen esto justo. Opus 4.8 es de hecho más eficiente que Opus 4.7 en trabajo real, usando un 35% menos tokens de salida en tareas profesionales de conocimiento, así que la brecha se estrecha. Y en las suscripciones, a diferencia de la API, los dos entierran el coste por token dentro de un plan plano, donde lo que sientes es la cuota, no el precio. Para traducir ese gasto a euros de tu equipo, nuestra calculadora de ROI de IA hace los números en un par de minutos.
Precios y planes de Claude Code y Codex
A nivel de suscripción los dos se alinean casi exactos. Ambos arrancan con un nivel gratuito, un plan de 20 dólares para uso diario ligero, y suben a planes de 100 y 200 para trabajo más pesado. El detalle que muerde es el límite, no el precio del titular.
| Plan | Claude Code (Anthropic) | Codex (OpenAI) |
|---|---|---|
| Gratis | Limitado | Free + Go a 8 $/mes |
| Entrada | Pro 20 $/mes | Plus 20 $/mes |
| Potencia | Max 100 $ (5x) / 200 $ (20x) | Pro desde 100 $ (5x-20x) |
| Precio API de salida | 25 $ / 1M tokens | 30 $ / 1M tokens |
| Modelo de límites | Ventana de 5 horas + tope semanal | Ventana de 5 horas + tope semanal |
| Mejor valor para programar a diario | Max 5x (100 $) | Pro (100 $) |
Precios en USD, mayo de 2026, de las páginas de precios de Anthropic y OpenAI. Las cuotas de tokens por ventana son estimaciones de la comunidad; ninguno publica números duros.
Los dos miden el uso en una ventana rodante de cinco horas más un tope semanal. Anthropic dobló los límites de cinco horas de Claude Code el 6 de mayo de 2026 y quitó el estrangulamiento en hora punta, lo que ayudó, pero el uso intensivo de Opus sigue tocando el techo semanal antes que Sonnet. Una lectura práctica: los planes de 20 dólares valen para una o dos sesiones concentradas al día, el pair programming de jornada completa cae en el rango de los 100, y el nivel de 200 es para trabajo agéntico de día entero. Dynamic Workflows y los subagentes en paralelo son maravillosos y se comerán una cuota a una velocidad alarmante: trátalos como bisturí, no como valor por defecto.
Claude Code y Codex según los desarrolladores
Benchmarks aparte, el consenso de quien los usa es consistente y útil. Las reseñas describen Claude Code como el agente que más planifica: escribe razonamientos más largos, hace más preguntas aclaratorias, planta cara a un plan flojo y tiende a producir mejor salida visual y de diseño. A Codex lo describen como el que actúa: eficiente en tokens, más rápido hasta el primer diff, con un agente revisor integrado que bloquea cambios arriesgados y un navegador dentro de la app para verificar un arreglo de punta a punta.
Un ingeniero senior de Datadog escribió sobre su cambio a Codex como herramienta diaria tras casi un año en Claude Code, alabando su criterio para decidir cuándo usar herramientas y su capacidad de navegar tres bases de código a la vez, sin dejar de usar Claude Code para parte del trabajo y llamándolo excelente. Eso captura el ánimo de la mayoría de análisis fiables: esto no es un nocaut, es una decisión de enrutado. Los equipos que más sacan de las herramientas de 2026 usan los dos y mandan cada tarea al agente que le va.
¿Claude Code o Codex? Cuál elegir según tu equipo
Para una empresa, la decisión rara vez se reduce a un solo benchmark. La residencia de datos, el coste predecible y el encaje con la carga de trabajo real importan más. Los dos modelos están disponibles a través de Amazon Bedrock y Google Vertex AI, que operan en regiones de la UE, así que los equipos con obligaciones de RGPD o contratos que exigen tratamiento local del dato pueden mantener la inferencia en Europa en vez de tirar por defecto de un endpoint de EE. UU. Esa opción existe hoy para Claude y es el camino más limpio para el trabajo regulado. Si tus desarrolladores trabajan dentro de un editor y no en la terminal, nuestra guía Cursor vs Claude Code hace esta misma comparativa para ese montaje.
| Si tú… | Elige | Por qué |
|---|---|---|
| Trabajas sobre un monorepo grande | Claude Code | 1M de contexto frente a 400K |
| Ejecutas tareas de terminal rápidas y acotadas | Codex | Más rápido al primer diff, más ligero |
| Vigilas de cerca el coste en tokens | Codex | 3-4x menos tokens por tarea |
| Necesitas diffs cuidadosos y mínimos | Claude Code | Planifica más, menos fallos de código |
| Resuelves incidencias completas de GitHub | Claude Code | Lidera SWE-bench Pro |
| Quieres inferencia en la UE | Claude Code | Bedrock / Vertex en regiones europeas |
Si quieres la vista a nivel de modelo detrás de estos agentes, nuestra comparativa Claude vs ChatGPT cubre razonamiento, escritura y precios. Y para el cambio de fondo detrás de todo esto, mira nuestro explicador de IA agéntica frente a IA generativa.
Claude Code o Codex: la conclusión para 2026
Aquí no hay un único ganador, y quien te diga lo contrario te está vendiendo algo. Claude Code con Opus 4.8 es la opción más fuerte para el trabajo profundo y multiarchivo, el contexto grande y los diffs cuidadosos. Codex con GPT-5.5 es más rápido, mucho más eficiente en tokens y mejor valor para la programación acotada de gran volumen. En un benchmark de terminal neutral los dos quedan a pocos puntos, y el harness alrededor de cada modelo mueve el número tanto como el propio modelo.
Un equipo de software de Melbourne con el que trabajo lo resolvió de la manera sensata. Mantuvieron las dos suscripciones, conectaron Claude Code para la arquitectura y los cambios a lo ancho del repositorio y Codex para los arreglos rápidos y los bucles de terminal, y dejaron de discutir. Su gasto mensual apenas se movió, porque la eficiencia de Codex en los trabajos pequeños compensó el uso más pesado de Claude en los grandes.
Empieza con los dos en un plan de 20 dólares y ejecútalos sobre tu propio repositorio una semana. Después comprométete con el patrón, no con la marca:
• En solitario o con presupuesto ajustado: lidera con Codex por su eficiencia de tokens.
• Bases de código grandes o trabajo regulado con datos en la UE: lidera con Claude Code.
• Un equipo financiado que publica a diario: usa los dos y enruta por tarea. Es el montaje de mayor retorno en 2026.
Si quieres ayuda conectando agentes de programación y automatización a la forma real de trabajar de tu equipo, ese es nuestro trabajo de cada día. Aivy es una agencia de automatización con IA, y puedes reservar una sesión de descubrimiento gratuita para mapear el montaje correcto para tu stack.
Preguntas frecuentes sobre Claude Code y Codex
¿Es Claude Code mejor que Codex?
Depende de la tarea. Claude Code (Opus 4.8, con Fable 5 como mejora opcional) lidera la mayoría de benchmarks de programación agéntica y sostiene mucho más contexto, así que encaja con el trabajo grande y multiarchivo. Codex (GPT-5.5) es más rápido y usa entre tres y cuatro veces menos tokens, lo que lo hace más eficiente en coste para el día a día. Muchos equipos usan los dos.
¿Cuál usa menos tokens, Claude Code o Codex?
Codex. Las pruebas independientes en tareas idénticas encontraron que Claude Code gasta aproximadamente entre 3,2 y 4,2 veces más tokens que Codex. El uso mayor de Claude refleja una salida más minuciosa y determinista, pero cuesta más por tarea en facturación por token.
¿Qué ventana de contexto tiene cada uno?
Claude Code ejecuta Opus 4.8 con una ventana de contexto de un millón de tokens. Codex ejecuta GPT-5.5 con una ventana de 400K, y los desarrolladores sitúan la cifra usable en sesión más cerca de 258K. Para repositorios grandes, la ventana de Claude Code es una ventaja clara.
¿Cuánto cuestan Claude Code y Codex?
Los dos arrancan gratis, ofrecen un plan de entrada de 20 dólares al mes y suben a niveles de 100 y 200 para uso intensivo. En la API, la salida de Opus 4.8 cuesta 25 dólares por millón de tokens frente a los 30 de GPT-5.5, aunque la eficiencia de tokens de Codex suele hacerlo más barato por tarea.
¿Cuál es mejor para bases de código grandes?
Claude Code, normalmente. Su contexto de un millón de tokens y su resultado líder en SWE-bench Pro favorecen los cambios multiarchivo a lo ancho del repositorio. La ventana de 400K de Codex puede obligar a re-alimentar contexto en un monorepo grande.
¿De verdad el harness del benchmark cambia el resultado?
Sí, y de forma apreciable. En Terminal-Bench 2.1, GPT-5.5 saca un 78,2% en el harness público neutral pero un 83,4% en la propia Codex CLI de OpenAI. Opus 4.8 se mueve de forma parecida entre harnesses. Comprueba siempre qué harness usa una puntuación antes de comparar.
¿Puedo usar Claude Code y Codex a la vez?
Sí, y muchos equipos con experiencia lo hacen. Un patrón común es Claude Code para la planificación y la arquitectura y Codex para la implementación rápida y acotada. Enrutar cada tarea al agente que mejor le va suele ganar a casarse con uno.
¿Puede una empresa mantener los datos en la UE?
Con Claude, sí. Opus 4.8 está disponible a través de Amazon Bedrock y Google Vertex AI en regiones europeas, lo que ayuda a los equipos con necesidades de RGPD o de residencia contractual del dato. Confirma tu configuración concreta, porque los detalles varían por proveedor.
¿El plan de 20 dólares llega para programar?
Para uso diario ligero de una o dos sesiones concentradas, normalmente sí en cualquiera de los dos. La programación agéntica de jornada completa suele necesitar el nivel de 100, y el pair programming de día entero el de 200. Los agentes en paralelo y los dynamic workflows consumen cuota mucho más rápido.
Última actualización: 12 de junio de 2026, añadiendo el contexto de Claude Fable 5. Cifras verificadas contra la documentación de los proveedores, las system cards y los rankings independientes al momento de escribir. Las puntuaciones se mueven con cada harness y versión de modelo nuevos.
• Anthropic — Claude Opus 4.8 · System Card de Opus 4.8, tablas 8.1.A / 8.9.A (SWE-bench Pro 69,2/58,6; HLE con herramientas 57,9/52,2; GraphWalks)
• Ranking Terminal-Bench (tbench.ai) — Codex CLI 83,4 / Claude Code 78,9 / Terminus-2 78,2 y 74,6
• Artificial Analysis — índice 61,4 frente a 60,2; coste 4.686 $ frente a 3.357 $; 110M frente a 75M de tokens; Terminal-Bench Hard
• Precios y modelos de OpenAI Codex — GPT-5.5 por defecto, planes, ventana de 400K
• Issues de openai/codex (GitHub): ventana efectiva en sesión ≈258K reportada por desarrolladores
• Morph LLM — uso de tokens en tarea idéntica (3,2x-4,2x)
• Precios de Anthropic · Análisis práctico de Developers Digest · Documentación de Dynamic Workflows de Claude Code
