Guías / Comparativa

Claude Code vs Codex: ¿qué agente de programación gana en 2026?

🎯 RECOMENDACIÓN RÁPIDA

Claude Code (Opus 4.8) gana el trabajo profundo: contexto de 1M, diffs cuidadosos y el liderato en SWE-bench Pro. Codex (GPT-5.5) gana en velocidad y gasta 3-4 veces menos tokens, así que estira más cada euro y cada cuota. En terminal neutral están a pocos puntos: empieza con los dos a 20 $ y comprométete con el patrón, no con la marca.

En cuestión de seis semanas, los dos agentes de programación que de verdad usan mis clientes estrenaron cerebro nuevo. OpenAI metió GPT-5.5 dentro de Codex el 23 de abril. Anthropic soltó Claude Opus 4.8 dentro de Claude Code el 28 de mayo. Las dos compañías reclaman la frontera, y las dos tienen razón según qué benchmark leas. Ese es exactamente el problema cuando un desarrollador me pregunta, en cristiano, cuál de los dos pagar. Si lo que comparas es el modelo de chat y no el agente de terminal, nuestra comparativa ChatGPT vs Claude vs Copilot cubre ese frente.

Actualización, julio de 2026: Anthropic ha lanzado Claude Opus 5, a 5 / 25 dólares por millón de tokens, alrededor de la mitad de precio que Fable 5, y ya es el modelo por defecto en Claude Max y el más potente en Claude Pro. Para la mayoría de los equipos el punto de partida por defecto ha cambiado. Lee nuestro análisis completo de Claude Opus 5.

Llevo el éxito de cliente en Aivy, una agencia de automatización con IA, y he pasado las últimas dos semanas ejecutando los dos agentes sobre repositorios reales de clientes, no sobre apps de demo. La respuesta honesta es más interesante que un único ganador. Opus 4.8 encabeza la mayoría de benchmarks de titular y sostiene una base de código mucho mayor en la cabeza. Codex con GPT-5.5 llega antes a un cambio que funciona y, en tareas idénticas, quema entre tres y cuatro veces menos tokens. Para un equipo que paga dinero real, esa brecha importa tanto como un benchmark.

Esta guía compara Claude Code y Codex como debería sopesarlos un responsable de ingeniería: benchmarks, el efecto harness que decide esos benchmarks en silencio, límites de contexto, coste en tokens, velocidad, cuotas y el ángulo de la residencia de datos y el precio. Las gráficas de abajo son la parte que me gustaría que publicara cada proveedor. Si solo lees la recomendación rápida, ya tienes la respuesta estructural.

¿Eliges nivel de Claude para programar? Nuestra guía de Claude Opus 5 explica dónde queda frente a Fable 5.

Claude Code vs Codex de un vistazo

Las dos herramientas riman. Cada una es un agente que vive en tu terminal, edita archivos, ejecuta comandos y comprueba su propio trabajo, con superficies cloud e IDE alrededor. Las diferencias que importan son el modelo por defecto, cuánto contexto sostienen, cuántos tokens gastan y para qué están afinadas.

Aspecto	Claude Code	Codex
Fabricante	Anthropic	OpenAI
Modelo por defecto	Claude Opus 4.8	GPT-5.5
Superficies	Terminal, IDE, cloud, API	CLI, cloud/web, IDE, GitHub
Ventana de contexto	1M de tokens	400K (≈258K efectivos)
Intelligence Index	61,4 (1º)	60.2
Eficiencia de tokens	Verboso	3-4x más contenido
Precio de entrada	20 $/mes (Pro)	20 $/mes (Plus)
Mejor para	Trabajo multiarchivo y de horizonte largo	Bucles de terminal rápidos y acotados
Modelo superior opcional	Claude Fable 5 (80,0% SWE-bench Pro)	GPT-5.6 Sol, en despliegue desde el 9 de julio de 2026

Precios en USD, mayo de 2026. Intelligence Index y datos de tokens de Artificial Analysis.

Actualización de junio de 2026: Anthropic ha lanzado desde entonces Claude Fable 5, un nivel nuevo por encima de Opus 4.8 que Claude Code puede ejecutar de forma opcional con el comando /model fable. Marca un 80,0% en SWE-bench Pro frente al 69,2% de Opus 4.8 y el 58,6% de GPT-5.5, a 10/50 dólares por millón de tokens. La comparativa de abajo cubre los modelos por defecto; los números completos están en nuestro análisis de Fable 5.

Qué son exactamente Claude Code y Codex

Los dos productos son más que un modelo. Codex es el sistema agéntico de programación de OpenAI repartido en cuatro superficies que comparten una cuenta: una CLI open source que ejecutas en la terminal, un agente cloud con sandbox al que delegas tareas, una extensión de IDE y una integración con GitHub. Su modelo recomendado por defecto es GPT-5.5, el primer modelo base totalmente reentrenado de OpenAI desde GPT-4.5. A lo largo de mayo, OpenAI publicó actualizaciones de Codex casi semanales, convirtiendo la CLI en un runtime autónomo persistente con un modo objetivo por defecto y uso de ordenador. Si quieres situar este tipo de herramienta en el mapa más amplio de los agentes de IA para empresas, ese explicador cubre los usos más allá de programar.

Claude Code es el agente terminal-first de Anthropic, ahora con Opus 4.8 por defecto y accesible desde las apps de Claude, la API, Amazon Bedrock, Vertex AI y Microsoft Foundry. Sus piezas son los subagentes, las skills y los slash commands, más una research preview llamada Dynamic Workflows. Esta última deja que Claude escriba un script que orquesta de decenas a cientos de subagentes en segundo plano, con tope de 1.000 por ejecución, de modo que la lógica de orquestación vive en código en vez de comerse la ventana de contexto principal. Anthropic la empareja con un ajuste ultracode que combina el máximo esfuerzo de razonamiento con la orquestación automática de workflows. Los dos son agentes de terminal antes que asistentes de editor; si prefieres que la IA viva dentro de tu IDE, esa es la categoría que cubre nuestra guía Cursor vs GitHub Copilot. Y si te pica la curiosidad por cómo es montar un agente de estos en tu propia máquina, en la guía de OpenClaw, un agente de IA en local, enseñamos uno por dentro.

Veredicto La misma forma, distinta filosofía. Codex está afinado para actuar rápido y barato dentro de unos valores por defecto estrechos. Claude Code está afinado para planificar, razonar sobre más contexto y escalar a muchos agentes. Ninguno es un modelo que puedas juzgar solo por el cociente intelectual.

Actualización de julio de 2026: OpenAI anunció GPT-5.6 en tres tamaños (Sol, Terra y Luna, desde 1 dólar por millón de tokens de entrada), con despliegue público desde el 9 de julio de 2026 tras una preview limitada en la API y Codex; la comparativa de abajo cubre los modelos por defecto, Opus 4.8 y GPT-5.5, e incorporaremos GPT-5.6 cuando haya benchmarks independientes.

Claude Code vs Codex en los benchmarks

En el conjunto de números publicados, Opus 4.8 lidera más veces de las que persigue, pero la foto no es un barrido. En los benchmarks donde ambos proveedores publican cifra, el modelo de Claude Code gana la programación agéntica y el razonamiento, mientras el de Codex es genuinamente más fuerte en tareas de estilo terminal. Léelos como estimaciones puntuales, no como veredictos: varias brechas caen dentro de las barras de error.

Benchmarks de programación y razonamiento: Opus 4.8 vs GPT-5.5

Más alto es mejor, eje 0-100%. Fuentes: system card de Opus 4.8 y Artificial Analysis (Terminal-Bench Hard).

Claude Opus 4.8 GPT-5.5Claude Fable 5 (opcional, solo SWE-bench Pro)

SWE-bench Pro (incidencias de repo)

69.2

58.6

80.0

Terminal-Bench 2.1 (harness Terminus-2)

74.6

78.2

Terminal-Bench Hard (Artificial Analysis)

58.3

60.6

OSWorld-Verified (uso de ordenador)

83.4

78.7

Humanity’s Last Exam (con herramientas)

57.9

52.2

La brecha de SWE-bench Pro, 69,2% frente a 58,6%, es la que Anthropic pone por delante, y es el benchmark más cercano al trabajo real: resolver una incidencia genuina de GitHub a lo largo de un repositorio en una pasada. Conviene saber que ahí los dos números son mediciones de la propia Anthropic, incluida la cifra de GPT-5.5, así que trata el tamaño de la brecha como indicativo y no como dogma. En los marcadores independientes de Terminal-Bench, GPT-5.5 se pone ligeramente por delante. Y la otra mitad del tablero, Claude contra Google, la cubrimos en nuestra comparativa Claude vs Gemini.

Veredicto Opus 4.8 gana las pruebas agénticas y de razonamiento amplias; GPT-5.5 gana las de terminal. Si tu trabajo tiene forma de repositorio, Claude se inclina por delante. Si tiene forma de línea de comandos, Codex.

Claude Code contra Codex en programación: el harness importa

Aquí está el detalle que decide la mayoría de discusiones de benchmarks de terminal, y casi nadie lo menciona. El mismo modelo puntúa muy distinto según el harness, el andamiaje que lo ejecuta. En Terminal-Bench 2.1, GPT-5.5 saca un 78,2% en el harness público neutral pero un 83,4% en la propia Codex CLI de OpenAI. Opus 4.8 saca un 74,6% en el mismo harness público y un 78,9% en su Claude Code nativo. Así que en su propio terreno, los dos saltan unos cuatro puntos.

El efecto harness: Terminal-Bench 2.1, mismos modelos, distinto andamiaje

Eje 0-100%. Harness nativo frente a harness público neutral. Fuente: ranking de tbench.ai (±2,2-2,5).

GPT-5.5 · Codex CLI83.4

Opus 4.8 · Claude Code78.9

GPT-5.5 · Terminus-2 (público)78.2

Opus 4.8 · Terminus-2 (público)74.6

La lección no es quién gana por un 0,7%. Es que el agente que envuelve al modelo, cómo gestiona el contexto, los reintentos y las llamadas a herramientas, está haciendo trabajo de verdad. Cuando comparas Claude Code y Codex estás comparando dos harnesses tanto como dos modelos, y por eso tus propios resultados sobre tu propio stack son el benchmark que cuenta. Es la misma lógica que aplicamos en nuestra auditoría de automatización con IA: medir sobre tu proceso real, no sobre una demo.

Veredicto En programación de terminal, GPT-5.5 dentro de Codex es la configuración individual más fuerte, pero la brecha modelo contra modelo en harness neutral es pequeña. Fíate de una prueba de una semana en tu repo antes que de cualquier ranking.

Contexto largo: Claude Code y Codex ante bases de código grandes

Esta es la diferencia más clara y menos ambigua entre los dos. Claude Code trae una ventana de contexto de un millón de tokens por defecto. Codex ejecuta GPT-5.5 con una ventana de 400K, y los desarrolladores sitúan la cifra usable en sesión más cerca de 258K una vez reservados los presupuestos de entrada y salida. En un monorepo grande, esa es la diferencia entre sostener el servicio entero en contexto y estar re-alimentándolo constantemente. Solo Gemini juega en esa liga de contexto, una carrera que repasamos en nuestra comparativa ChatGPT vs Gemini.

Ventana de contexto usable dentro del agente

Tokens sostenidos en una sesión. Fuentes: documentación de Anthropic; lanzamiento de GPT-5.5 de OpenAI; issues de openai/codex.

Claude Code (Opus 4.8)1,000K

Codex (GPT-5.5), publicado400K

Codex, efectivo en sesión≈258K

El tamaño es una cosa y usarlo bien es otra, y Opus ha mejorado con fuerza en lo segundo. En GraphWalks, la prueba de razonamiento de contexto largo de Anthropic, la precisión con un millón de tokens de contexto subió del 16% en Opus 4.6 al 40% en 4.7 y al 68% en 4.8. Con 256K tokens la misma línea va del 61% al 86%.

La precisión de Claude en contexto largo sube rápido (GraphWalks F1)

Más alto es mejor. Fuente: System Card de Claude Opus 4.8, tabla 8.9.A.

Contexto de 256K Contexto de 1M

Opus 4.6

61%

16%

Opus 4.7

77%

40%

Opus 4.8

86%

68%

Veredicto Claude Code gana el contexto con autoridad, tanto en ventana bruta como en lo bien que la usa. Para monorepos grandes y refactors entre servicios, esta es la mejor razón individual para elegirlo.

Tokens y coste: Claude Code frente a Codex

Aquí es donde Codex devuelve el golpe, y fuerte. En tareas de programación idénticas, las pruebas independientes encontraron que Claude Code gasta entre tres y cuatro veces más tokens que Codex: 4,2 veces en un plugin de Figma, 3,6 en una integración de API, 3,2 en una app de turnos. El gasto extra de Claude compra una salida más minuciosa y determinista, pero en una factura por token se acumula rápido.

Tokens usados en la misma tarea: Codex vs Claude Code

Barras a escala dentro de cada tarea. Fuente: Morph LLM, pruebas de tarea idéntica, mayo de 2026.

Codex (GPT-5.5) Claude Code (Opus)

Plugin de Figma 4,2x más

1.50M

6.23M

Integración de API 3,6x más

~180K

~650K

App de turnos 3,2x más

72.6K

234.8K

En tarifas de lista de la API la foto es mixta. Opus 4.8 cuesta 5 dólares por millón de tokens de entrada y 25 por millón de salida, mientras GPT-5.5 está en 5 y 30, así que Opus es un 17% más barato por token de salida. Pero más barato por token no significa más barato por tarea cuando el modelo escribe tres o cuatro veces más tokens. Ejecutando la misma prueba de inteligencia de Artificial Analysis, Opus 4.8 gastó 110 millones de tokens por 4.686 dólares frente a los 75 millones de GPT-5.5 por 3.357: aproximadamente un 40% más para ganar el índice por un solo punto.

Coste de ejecutar el Intelligence Index completo (USD)

Una pasada de evaluación al máximo esfuerzo. Fuente: Artificial Analysis, mayo de 2026.

Opus 4.8$4,686

GPT-5.5$3,357

Dos matices mantienen esto justo. Opus 4.8 es de hecho más eficiente que Opus 4.7 en trabajo real, usando un 35% menos tokens de salida en tareas profesionales de conocimiento, así que la brecha se estrecha. Y en las suscripciones, a diferencia de la API, los dos entierran el coste por token dentro de un plan plano, donde lo que sientes es la cuota, no el precio. Para traducir ese gasto a euros de tu equipo, nuestra calculadora de ROI de IA hace los números en un par de minutos.

Veredicto Codex es materialmente más eficiente en tokens, lo que lo hace el caballo de batalla diario más barato en la API y el que estira más una cuota fija. El gasto de Claude compra minuciosidad, no despilfarro, pero lo pagas.

Precios y planes de Claude Code y Codex

A nivel de suscripción los dos se alinean casi exactos. Ambos arrancan con un nivel gratuito, un plan de 20 dólares para uso diario ligero, y suben a planes de 100 y 200 para trabajo más pesado. El detalle que muerde es el límite, no el precio del titular.

Plan	Claude Code (Anthropic)	Codex (OpenAI)
Gratis	Limitado	Free + Go a 8 $/mes
Entrada	Pro 20 $/mes	Plus 20 $/mes
Potencia	Max 100 $ (5x) / 200 $ (20x)	Pro desde 100 $ (5x-20x)
Precio API de salida	25 $ / 1M tokens	30 $ / 1M tokens
Modelo de límites	Ventana de 5 horas + tope semanal	Ventana de 5 horas + tope semanal
Mejor valor para programar a diario	Max 5x (100 $)	Pro (100 $)

Precios en USD, mayo de 2026, de las páginas de precios de Anthropic y OpenAI. Las cuotas de tokens por ventana son estimaciones de la comunidad; ninguno publica números duros.

Los dos miden el uso en una ventana rodante de cinco horas más un tope semanal. Anthropic dobló los límites de cinco horas de Claude Code el 6 de mayo de 2026 y quitó el estrangulamiento en hora punta, lo que ayudó, pero el uso intensivo de Opus sigue tocando el techo semanal antes que Sonnet. Una lectura práctica: los planes de 20 dólares valen para una o dos sesiones concentradas al día, el pair programming de jornada completa cae en el rango de los 100, y el nivel de 200 es para trabajo agéntico de día entero. Dynamic Workflows y los subagentes en paralelo son maravillosos y se comerán una cuota a una velocidad alarmante: trátalos como bisturí, no como valor por defecto. La misma trampa de elegir el escalón de precio correcto la analizamos al comparar plataformas de automatización en nuestra guía de alternativas a Zapier.

Veredicto El precio es un empate a nivel de etiqueta. La eficiencia de tokens de Codex hace que un dólar o una cuota den más de sí, sobre todo en el nivel de 20. El contexto mayor de Claude justifica el gasto cuando el trabajo lo pide.

Claude Code y Codex según los desarrolladores

Benchmarks aparte, el consenso de quien los usa es consistente y útil. Las reseñas describen Claude Code como el agente que más planifica: escribe razonamientos más largos, hace más preguntas aclaratorias, planta cara a un plan flojo y tiende a producir mejor salida visual y de diseño. A Codex lo describen como el que actúa: eficiente en tokens, más rápido hasta el primer diff, con un agente revisor integrado que bloquea cambios arriesgados y un navegador dentro de la app para verificar un arreglo de punta a punta.

Un ingeniero senior de Datadog escribió sobre su cambio a Codex como herramienta diaria tras casi un año en Claude Code, alabando su criterio para decidir cuándo usar herramientas y su capacidad de navegar tres bases de código a la vez, sin dejar de usar Claude Code para parte del trabajo y llamándolo excelente. Eso captura el ánimo de la mayoría de análisis fiables: esto no es un nocaut, es una decisión de enrutado. Los equipos que más sacan de las herramientas de 2026 usan los dos y mandan cada tarea al agente que le va. El mismo patrón de elegir según el flujo lo verás en nuestra comparativa Cursor vs GitHub Copilot para quien prefiere el asistente dentro del editor.

Veredicto Si solo puedes aprender uno, aprende el que ya toca tu stack. Si puedes usar los dos, usa Claude Code para planificar y razonar sobre el repo y Codex para implementar cambios acotados y precisos.

¿Claude Code o Codex? Cuál elegir según tu equipo

Para una empresa, la decisión rara vez se reduce a un solo benchmark. La residencia de datos, el coste predecible y el encaje con la carga de trabajo real importan más. Los dos modelos están disponibles a través de Amazon Bedrock y Google Vertex AI, que operan en regiones de la UE, así que los equipos con obligaciones de RGPD o contratos que exigen tratamiento local del dato pueden mantener la inferencia en Europa en vez de tirar por defecto de un endpoint de EE. UU. Esa opción existe hoy para Claude y es el camino más limpio para el trabajo regulado. Si tus desarrolladores trabajan dentro de un editor y no en la terminal, nuestra guía Cursor vs Claude Code hace esta misma comparativa para ese montaje.

Si tú…	Elige	Por qué
Trabajas sobre un monorepo grande	Claude Code	1M de contexto frente a 400K
Ejecutas tareas de terminal rápidas y acotadas	Codex	Más rápido al primer diff, más ligero
Vigilas de cerca el coste en tokens	Codex	3-4x menos tokens por tarea
Necesitas diffs cuidadosos y mínimos	Claude Code	Planifica más, menos fallos de código
Resuelves incidencias completas de GitHub	Claude Code	Lidera SWE-bench Pro
Quieres inferencia en la UE	Claude Code	Bedrock / Vertex en regiones europeas

Si quieres la vista a nivel de modelo detrás de estos agentes, nuestra comparativa Claude vs ChatGPT cubre razonamiento, escritura y precios.

Y para el cambio de fondo detrás de todo esto, conviene entender la frontera entre IA agéntica frente a IA generativa, que es justo lo que separa a estos agentes de un simple chatbot.

Claude Code o Codex: la conclusión para 2026

Aquí no hay un único ganador, y quien te diga lo contrario te está vendiendo algo. Claude Code con Opus 4.8 es la opción más fuerte para el trabajo profundo y multiarchivo, el contexto grande y los diffs cuidadosos, y dentro de la gama conviene elegir entre Opus, Sonnet y Haiku según la tarea. Codex con GPT-5.5 es más rápido, mucho más eficiente en tokens y mejor valor para la programación acotada de gran volumen. En un benchmark de terminal neutral los dos quedan a pocos puntos, y el harness alrededor de cada modelo mueve el número tanto como el propio modelo.

Un equipo de software de Melbourne con el que trabajo lo resolvió de la manera sensata. Mantuvieron las dos suscripciones, conectaron Claude Code para la arquitectura y los cambios a lo ancho del repositorio y Codex para los arreglos rápidos y los bucles de terminal, y dejaron de discutir. Su gasto mensual apenas se movió, porque la eficiencia de Codex en los trabajos pequeños compensó el uso más pesado de Claude en los grandes.

Nuestra recomendación

Empieza con los dos en un plan de 20 dólares y ejecútalos sobre tu propio repositorio una semana. Después comprométete con el patrón, no con la marca:

• En solitario o con presupuesto ajustado: lidera con Codex por su eficiencia de tokens.
• Bases de código grandes o trabajo regulado con datos en la UE: lidera con Claude Code.
• Un equipo financiado que publica a diario: usa los dos y enruta por tarea. Es el montaje de mayor retorno en 2026.

Si quieres ayuda conectando agentes de programación y automatización a la forma real de trabajar de tu equipo, ese es nuestro trabajo de cada día. Aivy es una agencia de automatización con IA, y puedes reservar una sesión de descubrimiento gratuita para mapear el montaje correcto para tu stack.

Preguntas frecuentes sobre Claude Code y Codex

¿Es Claude Code mejor que Codex?

Depende de la tarea. Claude Code (Opus 4.8, con Fable 5 como mejora opcional) lidera la mayoría de benchmarks de programación agéntica y sostiene mucho más contexto, así que encaja con el trabajo grande y multiarchivo. Codex (GPT-5.5) es más rápido y usa entre tres y cuatro veces menos tokens, lo que lo hace más eficiente en coste para el día a día. Muchos equipos usan los dos.

¿Cuál usa menos tokens, Claude Code o Codex?

Codex. Las pruebas independientes en tareas idénticas encontraron que Claude Code gasta aproximadamente entre 3,2 y 4,2 veces más tokens que Codex. El uso mayor de Claude refleja una salida más minuciosa y determinista, pero cuesta más por tarea en facturación por token.

¿Qué ventana de contexto tiene cada uno?

Claude Code ejecuta Opus 4.8 con una ventana de contexto de un millón de tokens. Codex ejecuta GPT-5.5 con una ventana de 400K, y los desarrolladores sitúan la cifra usable en sesión más cerca de 258K. Para repositorios grandes, la ventana de Claude Code es una ventaja clara.

¿Cuánto cuestan Claude Code y Codex?

Los dos arrancan gratis, ofrecen un plan de entrada de 20 dólares al mes y suben a niveles de 100 y 200 para uso intensivo. En la API, la salida de Opus 4.8 cuesta 25 dólares por millón de tokens frente a los 30 de GPT-5.5, aunque la eficiencia de tokens de Codex suele hacerlo más barato por tarea.

¿Cuál es mejor para bases de código grandes?

Claude Code, normalmente. Su contexto de un millón de tokens y su resultado líder en SWE-bench Pro favorecen los cambios multiarchivo a lo ancho del repositorio. La ventana de 400K de Codex puede obligar a re-alimentar contexto en un monorepo grande.

¿De verdad el harness del benchmark cambia el resultado?

Sí, y de forma apreciable. En Terminal-Bench 2.1, GPT-5.5 saca un 78,2% en el harness público neutral pero un 83,4% en la propia Codex CLI de OpenAI. Opus 4.8 se mueve de forma parecida entre harnesses. Comprueba siempre qué harness usa una puntuación antes de comparar.

¿Puedo usar Claude Code y Codex a la vez?

Sí, y muchos equipos con experiencia lo hacen. Un patrón común es Claude Code para la planificación y la arquitectura y Codex para la implementación rápida y acotada. Enrutar cada tarea al agente que mejor le va suele ganar a casarse con uno.

¿Puede una empresa mantener los datos en la UE?

Con Claude, sí. Opus 4.8 está disponible a través de Amazon Bedrock y Google Vertex AI en regiones europeas, lo que ayuda a los equipos con necesidades de RGPD o de residencia contractual del dato. Confirma tu configuración concreta, porque los detalles varían por proveedor.

¿El plan de 20 dólares llega para programar?

Para uso diario ligero de una o dos sesiones concentradas, normalmente sí en cualquiera de los dos. La programación agéntica de jornada completa suele necesitar el nivel de 100, y el pair programming de día entero el de 200. Los agentes en paralelo y los dynamic workflows consumen cuota mucho más rápido.

Última actualización: 9 de julio de 2026, añadiendo el contexto de Claude Fable 5. Cifras verificadas contra la documentación de los proveedores, las system cards y los rankings independientes al momento de escribir. Las puntuaciones se mueven con cada harness y versión de modelo nuevos.

Fuentes (verificadas, mayo de 2026):
• Anthropic: Claude Opus 4.8 · System Card de Opus 4.8, tablas 8.1.A / 8.9.A (SWE-bench Pro 69,2/58,6; HLE con herramientas 57,9/52,2; GraphWalks)
• Ranking Terminal-Bench (tbench.ai): Codex CLI 83,4 / Claude Code 78,9 / Terminus-2 78,2 y 74,6
• Artificial Analysis: índice 61,4 frente a 60,2; coste 4.686 $ frente a 3.357 $; 110M frente a 75M de tokens; Terminal-Bench Hard
• Precios y modelos de OpenAI Codex: GPT-5.5 por defecto, planes, ventana de 400K
• Issues de openai/codex (GitHub): ventana efectiva en sesión ≈258K reportada por desarrolladores
• Morph LLM: uso de tokens en tarea idéntica (3,2x-4,2x)
• Precios de Anthropic · Análisis práctico de Developers Digest · Documentación de Dynamic Workflows de Claude Code

Claude Code vs Codex: ¿qué agente de programación gana en 2026?

🎯 RECOMENDACIÓN RÁPIDA

En esta página

Claude Code vs Codex de un vistazo

Qué son exactamente Claude Code y Codex

Claude Code vs Codex en los benchmarks

Claude Code contra Codex en programación: el harness importa

Contexto largo: Claude Code y Codex ante bases de código grandes

Tokens y coste: Claude Code frente a Codex

Precios y planes de Claude Code y Codex

Claude Code y Codex según los desarrolladores

¿Claude Code o Codex? Cuál elegir según tu equipo

Claude Code o Codex: la conclusión para 2026

Preguntas frecuentes sobre Claude Code y Codex

¿Es Claude Code mejor que Codex?

¿Cuál usa menos tokens, Claude Code o Codex?

¿Qué ventana de contexto tiene cada uno?

¿Cuánto cuestan Claude Code y Codex?

¿Cuál es mejor para bases de código grandes?

¿De verdad el harness del benchmark cambia el resultado?

¿Puedo usar Claude Code y Codex a la vez?

¿Puede una empresa mantener los datos en la UE?

¿El plan de 20 dólares llega para programar?

En esta página

Lo más leído

The Aivy Brief

The Aivy Brief

The Aivy Brief