Anthropic lanzó Claude Fable 5 el 9 de junio y, en 48 horas, estaba en el número uno de todos los rankings independientes que lo habían probado. El planteamiento es inusual: Fable 5 no es el siguiente Opus. Es una clase nueva de modelo, la versión pública de un sistema más potente llamado Claude Mythos 5, con pesos idénticos y separados solo por salvaguardas de seguridad. Esa estructura, y los asteriscos que genera, es lo que hace que este lanzamiento merezca una lectura atenta y no un vistazo a los titulares.
Los números son reales: un salto generacional de unos 11 puntos en el benchmark de programación más duro, primer puesto en el índice independiente de Artificial Analysis y el doble de precio que Opus 4.8. Pero las decisiones viven en los detalles de debajo, sobre todo para los equipos que ya ejecutan agentes en producción con herramientas como las que comparamos en nuestra guía Claude Code vs Codex. Este análisis cubre qué es realmente Fable 5, cómo puntúa frente a Opus 4.8, GPT-5.5 y Gemini, qué cuesta en la práctica y las tres pegas que la cobertura del lanzamiento sigue pasando por alto.
Qué es realmente Claude Fable 5 (y por qué el nombre nuevo)
Fable 5 es el primer modelo que Anthropic publica en una línea de nombres por encima de Opus. La compañía lo describe como «un modelo de clase Mythos que hemos hecho seguro para uso general»: los mismos pesos que Claude Mythos 5, un sistema restringido cuyas capacidades completas se limitan a Project Glasswing, una colaboración con el gobierno de EE. UU. para ciberdefensores y operadores de infraestructuras críticas. Los nombres son deliberados: Fable del latín fabula, Mythos del griego. Según Anthropic, «las salvaguardas son lo que distingue a los dos modelos».
Tres datos del lanzamiento importan más que el marketing. Primero, el razonamiento adaptativo está siempre activo: no se puede desactivar, solo elegir niveles de esfuerzo de bajo a máximo. Segundo, cuando los clasificadores de seguridad marcan una petición — temas de ciberseguridad, biología o destilación de modelos — Fable 5 no la rechaza: la respuesta la genera Opus 4.8, con maquinaria nueva en la API para señalarlo. Tercero, llega con el régimen de despliegue más estricto de Anthropic hasta la fecha: protecciones ASL-3, retención de datos obligatoria de 30 días y, para una porción mínima del tráfico, intervenciones invisibles que degradan en silencio la ayuda para construir modelos frontera rivales. Para las empresas que planifican alrededor de la elección de modelo — el tipo de trabajo que hacemos en los proyectos de consultoría de IA — esos detalles operativos importan tanto como las victorias en benchmarks.
Fable 5 vs Opus 4.8: el salto generacional, medido
Opus 4.8 se lanzó el 28 de mayo. Doce días después, Fable 5 lo superaba en prácticamente todos los benchmarks que publica Anthropic, y no por decimales. En SWE-bench Pro, la prueba de ingeniería de software más dura del circuito, Fable 5 saca un 80,0% frente al 69,2% de Opus 4.8. En FrontierCode, el benchmark anticontaminación de Cognition, la brecha es más cruda: 29,3% frente a 13,4% en el set Diamond, una mejora de 2,2x que Anthropic asegura que se mantiene «incluso con esfuerzo medio». Los equipos que usan agentes de programación a diario — el público de nuestra comparativa Cursor vs Claude Code — notarán esa diferencia en los tickets más enrevesados, no en los rutinarios.
Fable 5 vs Opus 4.8: la brecha generacional
Más alto es mejor, eje 0-100%. Fuente: system card de Anthropic (junio de 2026), razonamiento adaptativo a esfuerzo máximo, media de 5 intentos.
Claude Opus 4.8
Un detalle que habla por sí solo: Anthropic ha retirado GPQA Diamond y AIME de sus informes, declarándolos saturados después de que las puntuaciones cruzaran el 94% y el 99%. Los benchmarks que todavía separan modelos en 2026 son los agénticos de horizonte largo — y ahí es exactamente donde la brecha de Fable 5 es más ancha.
Fable 5 vs GPT-5.5: dónde gana cada uno
GPT-5.5, lanzado en abril, sigue siendo el buque insignia de OpenAI, y la comparación está menos decantada de lo que sugiere la tabla de lanzamiento de Anthropic. En programación agéntica y trabajo de conocimiento, Fable 5 lidera con claridad: 80,0% frente a 58,6% en SWE-bench Pro, una brecha de 21,7 puntos mayor que la ventaja del propio GPT-5.5 sobre Gemini. En el benchmark financiero de Hebbia, en el legal de Harvey (13,3% vs 2,1%) y en el harness de producción de Cursor (72,9% vs 64,3%, medido por el propio Cursor), el patrón se repite. La dinámica refleja lo que ya vimos a nivel de consumo en nuestra comparativa Claude vs ChatGPT: Anthropic optimiza para la profundidad en el trabajo difícil.
Fable 5 vs GPT-5.5 en los benchmarks que ambos publican
Más alto es mejor, eje 0-100%. Fuentes: system card de Anthropic; las cifras de GPT-5.5, contrastadas con los números publicados por OpenAI. La fila de HLE es de Mythos 5 (columna Fable sin publicar, mismos pesos).
GPT-5.5
GPT-5.5 conserva coronas reales, y una cobertura honesta debe nombrarlas. Tiene la mejor puntuación publicada en ARC-AGI-2 (85,0%, sin que exista cifra alguna de Fable 5), lidera FrontierMath y su ejecución de Terminal-Bench en su propio harness sigue siendo la mejor puntuación de terminal verificada de forma independiente. OpenAI también movió ficha comercialmente: el mismo día del lanzamiento de Fable 5, su app Codex estrenó flujos de migración para usuarios de Claude Code, y la compañía registró confidencialmente su salida a bolsa un día después. Nadie está regalando este mercado.
Fable 5 vs Gemini: Google juega a otra cosa
La comparación con Google es asimétrica porque su modelo más fuerte aún no ha salido. Gemini 3.1 Pro, todavía etiquetado Preview, va por detrás en la mayoría de filas agénticas (54,2% en SWE-bench Pro, 70,7% en Terminal-Bench dentro de su propia CLI) pero conserva una corona publicada: 94,3% en GPQA Diamond, el benchmark de ciencia que los demás dejaron de reportar. Gemini 3.5 Flash, el modelo más nuevo que Google sí distribuye, es el campeón de velocidad y precio: 146 tokens por segundo a $1,50/$9 por millón, con puntuaciones agénticas que superan a su propio nivel Pro. La foto completa se parece a lo que mapeamos en nuestra comparativa Claude vs Gemini: Google compite en coste, velocidad y contexto, no en capacidad máxima.
| Buque insignia, junio 2026 | Claude Fable 5 | GPT-5.5 | Gemini 3.1 Pro / 3.5 Flash |
|---|---|---|---|
| Ventana de contexto | 1M tokens, precio plano | 1M API (400K en Codex) | 1M / 1M |
| Salida máxima | 128K | 128K | 64K / 64K |
| Precio entrada/salida por MTok | $10 / $50 | $5 / $30 (entrada x2 por encima de 272K) | $2/$12 · $1.50/$9 |
| Velocidad medida | 63 tok/s | n/a | 111 / 146 tok/s |
| SWE-bench Pro | 80.0% | 58.6% | 54.2% / 55.1% |
| Agente de programación | Claude Code (opcional) | Codex (por defecto) | Gemini CLI se retira el 18 de junio; lo sustituye Antigravity |
Documentación de los proveedores, 11 de junio de 2026. Gemini 3.5 Pro (2M de contexto, Deep Think) está anunciado pero sin publicar; trata sus números como marketing hasta que salga, previsto para finales de junio.
El marcador independiente: lo que miden los terceros
Las tablas de los proveedores merecen escepticismo, así que los marcadores que cuentan son los independientes. Artificial Analysis, que ejecuta sus propias evaluaciones, puntúa a Fable 5 con 65 en su Intelligence Index, primero de 152 modelos, cuatro puntos por delante de Opus 4.8 y cinco de GPT-5.5. En el ranking de preferencia humana de Arena, Fable 5 debutó número uno en texto, prompts difíciles, programación y desarrollo web, donde su Elo de 1665 queda unos 100 puntos por encima del pelotón. Anthropic ocupa ahora cinco de los nueve primeros puestos de texto, un barrido que no veíamos desde que escribimos nuestra comparativa a tres bandas de asistentes.
Artificial Analysis Intelligence Index v4 (independiente, junio de 2026)
Compuesto de 10 evaluaciones ejecutadas por Artificial Analysis. Eje 0-100. Fable 5 probado con su fallback de producción activo.
Dos matices honestos de las mismas fuentes. Los intervalos de confianza de Arena todavía se solapan entre Fable 5 (1510, más menos 11) y el segundo clasificado, Opus 4.6 Thinking, con solo dos días de votos. Y Artificial Analysis señala que su ejecución de Fable 5 costó unos 2.200 dólares en un solo benchmark, con el fallback a Opus 4.8 saltando en torno al 8% de las tareas del índice. Lo que nos lleva a las dos pegas estructurales.
La trampa del harness: por qué los números de Terminal-Bench no cuadran
Terminal-Bench es donde el marketing de modelos se vuelve resbaladizo, porque el mismo modelo puntúa distinto según el harness de agente que lo ejecute. El ranking independiente tbench.ai hace medible el efecto: GPT-5.5 gana 5,2 puntos dentro de su propia Codex CLI frente al harness neutral Terminus 2, y Opus 4.8 gana 4,3 puntos dentro de Claude Code. Los proveedores luego eligen la cereza: la tabla de lanzamiento de Anthropic cita a GPT-5.5 con su mejor harness (83,4%), mientras la model card de Google cita al mismo modelo con su harness neutral (78,2%). Los dos números son ciertos. Y se llevan cinco puntos.
| Terminal-Bench 2.1 | Agente de programación propio | Harness neutral | Bonus de harness |
|---|---|---|---|
| GPT-5.5 | 83,4% (Codex CLI) | 78.2% | +5.2 |
| Claude Opus 4.8 | 78,9% (Claude Code) | 74.6% | +4.3 |
| Gemini 3.1 Pro | 70,7% (Gemini CLI) | 70.3% | +0.4 |
| Claude Fable 5 | 88,0% (cifra del proveedor) | aún sin listar | sin verificar |
Filas 1-3: ranking independiente tbench.ai, consultado el 11 de junio de 2026 (barras de error de 2,2 a 2,9 puntos). Fila 4: ejecución interna de Anthropic en un tercer harness; al publicar no existía entrada independiente de Fable 5 en tbench.ai.
Así que trata el 88,0% de Fable 5 como una cifra del proveedor hasta que aterrice la fila independiente. La lección de fondo aplica a cualquier decisión de modelo: cuando comparas agentes estás comparando harnesses tanto como cerebros — por eso una prueba de una semana sobre tu propio repositorio, el consejo que damos en cada comparativa de herramientas que publicamos, vale más que cualquier ranking.
El asterisco del fallback: en parte estás midiendo a Opus 4.8
Aquí está la pega que casi ninguna cobertura del lanzamiento explica bien. Los clasificadores de seguridad de Fable 5 no bloquean las peticiones marcadas: redirigen la respuesta a Opus 4.8, de forma silenciosa para el usuario salvo por un aviso. Anthropic dice que esto toca menos del 5% de las sesiones. Pero en benchmarks la tasa sube: el 20,9% de los intentos de Terminal-Bench de la propia Anthropic tuvieron fallback a mitad de ejecución, y Artificial Analysis midió fallback en torno al 8% de las tareas de su índice y el 9% de las preguntas de Humanity’s Last Exam. Toda puntuación de Fable 5 que leas es, en rigor, la puntuación de un sistema Fable-más-Opus.
El mismo régimen incluye una idea genuinamente nueva: para peticiones sobre construir modelos frontera rivales, Anthropic aplica intervenciones que dice que «no serán visibles para el usuario», degradando la eficacia mediante modificación de prompts o vectores de dirección en vez de rechazar. Estima el impacto en el 0,03% del tráfico. Para la mayoría de empresas esto es irrelevante en la práctica y fascinante en principio: es el primer modelo GA que llega abiertamente con dos cerebros y un regulador de intensidad oculto. Si tu trabajo ejecuta agentes sobre infraestructura sensible — el tipo de arquitecturas de IA agéntica que mapeamos para clientes — el comportamiento del fallback pertenece a tu plan de pruebas, no a una nota al pie.
Precio: el doble de precio no es el doble de coste
La etiqueta es simple: 10 dólares por millón de tokens de entrada y 50 por millón de salida, exactamente el doble que Opus 4.8 y el modelo más caro del catálogo actual de Anthropic. La salida domina el gasto agéntico, y la escalera de junio de 2026 no perdona. Pero la economía por tarea cuenta una historia más interesante. Las estimaciones de modelado de costes de TokenMix sitúan una tarea rutinaria en 1,45 dólares con Opus 4.8 frente a 2,49 con Fable 5, mientras que una tarea de dificultad frontera se da la vuelta: 6,83 dólares con Fable 5 frente a 7,46 con Opus 4.8, porque Fable acierta más veces en menos turnos. Si quieres traducir eso a las cuentas de tu propia carga de trabajo, nuestra calculadora de ROI de IA hace exactamente esta aritmética.
Precio de salida por millón de tokens, junio de 2026 (USD)
Precios de lista de las páginas de los proveedores, 11 de junio de 2026. Precios de entrada en las etiquetas. La salida domina las cargas agénticas.
Tres letras pequeñas juegan a favor de Fable 5. No hay recargo por contexto largo: la ventana completa de 1M cuesta tarifa plana, mientras GPT-5.5 dobla el precio de entrada a partir de 272K tokens y Gemini 3.1 Pro a partir de 200K — así que la prima se encoge justo en los trabajos de contexto gigante para los que Fable 5 está hecho. El prompt caching descuenta la entrada un 90%. Y las peticiones rechazadas antes de generar salida no se facturan, con las respuestas de fallback cobrándose de hecho a tarifas de Opus. Un impuesto genuino: el tokenizador de la generación 4.7 cuenta aproximadamente un 30% más de tokens por el mismo texto que los Claude anteriores, así que las comparaciones ingenuas contra facturas pre-2026 engañan.
Velocidad, límites y el precipicio del 22 de junio
La capacidad tiene factura de velocidad. Artificial Analysis midió Fable 5 en unos 63 tokens de salida por segundo, puesto 61 de 152 modelos, con un tiempo hasta el primer token de unos 109 segundos a esfuerzo máximo, porque el razonamiento adaptativo concentra la latencia al principio. Gemini 3.5 Flash es más del doble de rápido. En bucles agénticos, lento-pero-correcto suele ganar a rápido-pero-erróneo, pero los usuarios interactivos lo notarán. Los suscriptores sienten otra restricción: los avisos dentro de la app advierten de que Fable 5 consume los límites del plan aproximadamente el doble de rápido que Opus, y un usuario de Max documentó cómo vació una ventana completa de cinco horas en ocho minutos con razonamiento al máximo y subagentes en paralelo.
El precipicio es el titular práctico para los suscriptores: Fable 5 está incluido en los planes Pro, Max, Team y Enterprise por asiento solo del 9 al 22 de junio. Desde el 23 de junio requiere créditos de uso prepagados que se consumen a tarifas de API, con un tope de 2.000 dólares canjeados al día, hasta que Anthropic diga que la capacidad permite devolver el acceso a los planes. Google, mientras tanto, gastó su energía de precios de junio en las suscripciones, bajando AI Ultra a 100 dólares en un nivel nuevo y 200 en el superior. La ventana gratuita de dos semanas es, en la práctica, una prueba de estrés pública — y los equipos con los que trabajamos en nuestra agencia de automatización la están usando exactamente así.
Usar Fable 5 en Claude Code hoy
Hay una afirmación circulando que conviene corregir: Fable 5 no es el modelo por defecto de Claude Code en ningún plan. Los predeterminados siguen siendo Opus 4.8 en Max, Team Premium y cuentas de API, y Sonnet 4.6 en Pro. Cambiar es un comando, /model fable, y requiere Claude Code 2.1.170 o más nuevo. La propia guía de Anthropic es ejecutar el esfuerzo en el high por defecto para la mayoría de tareas, señalando que los niveles de esfuerzo más bajos «a menudo superan el rendimiento xhigh de los modelos anteriores». Las peticiones marcadas por los clasificadores caen a Opus 4.8 con un aviso en la transcripción, y el razonamiento no se puede apagar.
| Tu situación | Movimiento sensato |
|---|---|
| Ingeniería dura multiarchivo o ejecuciones largas de agentes | Pasa esas sesiones a Fable 5 ya, mientras los planes lo incluyen |
| Programación rutinaria, borradores, tareas del día a día | Quédate en Opus 4.8 o Sonnet 4.6, aproximadamente la mitad de coste por tarea |
| Productos de API con techos de coste | Enruta por dificultad: un reparto 80/20 Opus/Fable recorta el gasto ~40% en cargas modeladas |
| Funciones de cara al usuario sensibles a la latencia | Fable 5 no: 109 s hasta el primer token a esfuerzo máximo |
| Requisitos de retención cero de datos | Excluido: Fable 5 obliga a 30 días de retención |
Para los equipos que aún están decidiendo si sus flujos están listos para todo esto, nuestro test de madurez digital en IA gratuito lleva unos minutos y te dice en qué lado de esa tabla estás.
Preguntas frecuentes sobre Fable 5
¿Qué es Claude Fable 5?
Fable 5 es el modelo disponible al público más capaz de Anthropic, lanzado el 9 de junio de 2026. Es la configuración pública de Claude Mythos 5, con los mismos pesos y clasificadores de seguridad añadidos, y se sitúa en un nivel nuevo por encima de la línea Opus, Sonnet y Haiku.
¿Es Fable 5 el modelo por defecto en Claude Code?
No. Los predeterminados siguen siendo Opus 4.8 o Sonnet 4.6 según tu plan. Fable 5 se activa con el comando /model fable y requiere Claude Code 2.1.170 o más nuevo, con el esfuerzo en high por defecto.
¿Cuánto cuesta Fable 5?
El precio de API es de 10 dólares por millón de tokens de entrada y 50 por millón de salida, el doble que Opus 4.8, con un descuento del 90% por prompt caching y sin recargo por contexto largo. Está incluido en los planes de suscripción de Claude solo hasta el 22 de junio de 2026; después requiere créditos de uso.
¿Cuánto mejor es Fable 5 que Opus 4.8?
En los benchmarks del proveedor, unos 11 puntos en SWE-bench Pro (80,0% vs 69,2%) y 2,2x en FrontierCode Diamond. De forma independiente, puntúa 65 frente a 61 en el Intelligence Index de Artificial Analysis y debutó 24 puntos de Elo por encima en el ranking de Arena.
¿Por qué Fable 5 recurre a Opus 4.8?
Los clasificadores de seguridad redirigen las peticiones marcadas — principalmente temas de ciberseguridad, biología y destilación de modelos — a Opus 4.8 en vez de rechazarlas. Anthropic informa de que afecta a menos del 5% de las sesiones, aunque ocurrió en torno al 8% de las tareas del índice de Artificial Analysis.
¿Puedo usar Claude Mythos 5?
En general, no. Mythos 5 está limitado a Project Glasswing, la colaboración de Anthropic con el gobierno de EE. UU. para ciberdefensores y operadores de infraestructuras críticas. Fable 5 es el mismo modelo con salvaguardas, disponible para todos.
¿Es Fable 5 mejor que GPT-5.5?
En la mayoría de benchmarks publicados sí, a menudo por márgenes amplios, y lidera los índices independientes. GPT-5.5 conserva la mejor puntuación en ARC-AGI-2, lidera FrontierMath, cuesta la mitad y tiene el mejor resultado de Terminal-Bench verificado de forma independiente en harness propio.
El veredicto para los equipos que eligen modelo este mes
Fable 5 es el modelo más capaz que cualquiera puede usar hoy, y la brecha es real: ventajas de dos dígitos en los benchmarks que todavía importan, confirmadas por todos los marcadores independientes que lo han probado. También es más lento, cuesta el doble y es estructuralmente novedoso de formas que piden una adopción con los ojos abiertos: parte de lo que compras es un sistema de seguridad que a veces responde con el modelo del mes pasado. El resumen honesto es que Anthropic ha publicado el nuevo techo — y le ha puesto un asterisco.
La jugada para los próximos diez días se escribe sola: la ventana de suscripción hasta el 22 de junio es una prueba gratuita de capacidad frontera a escala de producción. Apunta Fable 5 a la tarea más dura de tu backlog — ese refactor o ese análisis que nadie quiere — mide tokens y resultados contra Opus 4.8, y decide con tus propios datos: la misma disciplina que recomendamos en nuestro marco de evaluación de proveedores. Vigila dos actualizaciones que podrían mover este análisis: una fila independiente de Fable 5 en tbench.ai y el lanzamiento de Gemini 3.5 Pro previsto para finales de junio.
Si quieres ayuda para situar dónde encaja un modelo como este en tu operación, ese es el trabajo diario de nuestra agencia de automatización con IA: conectamos modelos a empresas reales y medimos lo que devuelven. Reserva una llamada de descubrimiento y trae tu flujo más difícil.
Todos los benchmarks, precios y fechas verificados el 11-12 de junio de 2026 contra las fuentes de abajo. Los modelos frontera cambian cada semana; revisa las páginas de los proveedores antes de comprometer presupuestos.
• Anthropic, anuncio de Claude Fable 5 y Claude Mythos 5: fecha de lanzamiento, posicionamiento de clase Mythos, precio $10/$50, comportamiento del fallback (menos del 5% de las sesiones), inclusión en planes hasta el 22 de junio, resultados de clientes; la system card de 319 páginas del mismo sitio aporta la tabla de benchmarks (SWE-bench Pro 80,0/69,2/58,6/54,2, OSWorld, FrontierCode, Elo GDPval-AA, USAMO), la tasa de fallback del 20,9% en Terminal-Bench, ASL-3 y la estimación de salvaguardas invisibles (~0,03% del tráfico)
• Documentación de configuración de modelos de Claude Code: Fable 5 no es el predeterminado en ningún tipo de cuenta, /model fable, versión 2.1.170+, guía de esfuerzo, avisos de fallback
• Artificial Analysis, Claude Fable 5: Intelligence Index independiente 65 (nº1 de 152) frente a Opus 4.8 (61), GPT-5.5 (60), Gemini 3.1 Pro (57), Gemini 3.5 Flash (55); 63,4 tok/s de velocidad de salida, ~109 s hasta el primer token, ~8% de tasa de fallback en tareas del índice, ~2.200 dólares de coste de la ejecución de Humanity’s Last Exam
• Ranking de Arena (antes LMArena): Fable 5 nº1 en Elo de texto con 1510 más menos 11, nº1 en prompts difíciles, programación y desarrollo web dos días después del lanzamiento
• Ranking Terminal-Bench 2.1 (tbench.ai): la matriz de harnesses (GPT-5.5 83,4 Codex CLI vs 78,2 neutral; Opus 4.8 78,9 Claude Code vs 74,6 neutral; Gemini 3.1 Pro 70,7 vs 70,3); sin fila de Fable 5 al publicar
• OpenAI, documentación del modelo GPT-5.5: precio $5/$30, recargo de contexto largo por encima de 272K, límites de contexto, lanzamiento en abril de 2026, Codex por defecto
• Google, precios y modelos de la API de Gemini: Gemini 3.1 Pro $2/$12 (recargo por encima de 200K), Gemini 3.5 Flash $1,50/$9, ventanas de contexto y límites de salida
• Blog de desarrolladores de Google: retirada de Gemini CLI el 18 de junio de 2026 y la transición a la CLI Antigravity
• Morph, análisis de costes de programación (junio de 2026): aviso de inflación por harness propio (17-21 puntos), metodología de coste por punto de benchmark, medición de un cliente con Fable 5 superando a Opus 4.8 en todos los niveles de esfuerzo siendo un 25-30% más rápido
• TokenMix, modelado de costes (estimaciones): el cruce por tarea resuelta (rutinaria $1,45 Opus vs $2,49 Fable; frontera $6,83 Fable vs $7,46 Opus) y el ahorro del enrutado 80/20 (~40%)
