Noticias / Anthropic

Claude Fable 5, a examen: los números reales y la letra pequeña

Por Joaquín Trapero Publicado hace 2 días

Key takeaways

Fable 5, analizado a fondo: benchmarks verificados frente a Opus 4.8, GPT-5.5 y Gemini, precios reales, economía de tokens y la pega del fallback que nadie está explicando.

Lo más leído

Anthropic lanzó Claude Fable 5 el 9 de junio y, en 48 horas, estaba en el número uno de todos los rankings independientes que lo habían probado. El planteamiento es inusual: Fable 5 no es el siguiente Opus. Es una clase nueva de modelo, la versión pública de un sistema más potente llamado Claude Mythos 5, con pesos idénticos y separados solo por salvaguardas de seguridad. Esa estructura, y los asteriscos que genera, es lo que hace que este lanzamiento merezca una lectura atenta y no un vistazo a los titulares.

Los números son reales: un salto generacional de unos 11 puntos en el benchmark de programación más duro, primer puesto en el índice independiente de Artificial Analysis y el doble de precio que Opus 4.8. Pero las decisiones viven en los detalles de debajo, sobre todo para los equipos que ya ejecutan agentes en producción con herramientas como las que comparamos en nuestra guía Claude Code vs Codex. Este análisis cubre qué es realmente Fable 5, cómo puntúa frente a Opus 4.8, GPT-5.5 y Gemini, qué cuesta en la práctica y las tres pegas que la cobertura del lanzamiento sigue pasando por alto.

Qué es realmente Claude Fable 5 (y por qué el nombre nuevo)

Fable 5 es el primer modelo que Anthropic publica en una línea de nombres por encima de Opus. La compañía lo describe como «un modelo de clase Mythos que hemos hecho seguro para uso general»: los mismos pesos que Claude Mythos 5, un sistema restringido cuyas capacidades completas se limitan a Project Glasswing, una colaboración con el gobierno de EE. UU. para ciberdefensores y operadores de infraestructuras críticas. Los nombres son deliberados: Fable del latín fabula, Mythos del griego. Según Anthropic, «las salvaguardas son lo que distingue a los dos modelos».

1M
Tokens de ventana de contexto por defecto, con salida máxima de 128K

$10/$50
Por millón de tokens de entrada/salida, el doble que Claude Opus 4.8

319
Páginas de la system card, la más larga que ha publicado Anthropic

<5%
De las sesiones disparan salvaguardas que pasan la respuesta a Opus 4.8

Tres datos del lanzamiento importan más que el marketing. Primero, el razonamiento adaptativo está siempre activo: no se puede desactivar, solo elegir niveles de esfuerzo de bajo a máximo. Segundo, cuando los clasificadores de seguridad marcan una petición — temas de ciberseguridad, biología o destilación de modelos — Fable 5 no la rechaza: la respuesta la genera Opus 4.8, con maquinaria nueva en la API para señalarlo. Tercero, llega con el régimen de despliegue más estricto de Anthropic hasta la fecha: protecciones ASL-3, retención de datos obligatoria de 30 días y, para una porción mínima del tráfico, intervenciones invisibles que degradan en silencio la ayuda para construir modelos frontera rivales. Para las empresas que planifican alrededor de la elección de modelo — el tipo de trabajo que hacemos en los proyectos de consultoría de IA — esos detalles operativos importan tanto como las victorias en benchmarks.

Fable 5 vs Opus 4.8: el salto generacional, medido

Opus 4.8 se lanzó el 28 de mayo. Doce días después, Fable 5 lo superaba en prácticamente todos los benchmarks que publica Anthropic, y no por decimales. En SWE-bench Pro, la prueba de ingeniería de software más dura del circuito, Fable 5 saca un 80,0% frente al 69,2% de Opus 4.8. En FrontierCode, el benchmark anticontaminación de Cognition, la brecha es más cruda: 29,3% frente a 13,4% en el set Diamond, una mejora de 2,2x que Anthropic asegura que se mantiene «incluso con esfuerzo medio». Los equipos que usan agentes de programación a diario — el público de nuestra comparativa Cursor vs Claude Code — notarán esa diferencia en los tickets más enrevesados, no en los rutinarios.

Fable 5 vs Opus 4.8: la brecha generacional

Más alto es mejor, eje 0-100%. Fuente: system card de Anthropic (junio de 2026), razonamiento adaptativo a esfuerzo máximo, media de 5 intentos.

Claude Fable 5
Claude Opus 4.8
SWE-bench Pro

80.0
69.2

SWE-bench Verified

95.0
88.6

FrontierCode Main (Cognition)

46.3
34.3

OSWorld-Verified (uso de ordenador)

85.0
83.4

+10.8
Puntos sobre Opus 4.8 en SWE-bench Pro, el mayor salto en una generación de 2026

2.2x
La puntuación de Opus 4.8 en FrontierCode Diamond (29,3% vs 13,4%)

+42
Elo sobre Opus 4.8 en trabajo de conocimiento GDPval-AA (1932 vs 1890)

99.8%
En la olimpiada matemática USAMO 2026, la prueba que sustituyó al saturado AIME

Un detalle que habla por sí solo: Anthropic ha retirado GPQA Diamond y AIME de sus informes, declarándolos saturados después de que las puntuaciones cruzaran el 94% y el 99%. Los benchmarks que todavía separan modelos en 2026 son los agénticos de horizonte largo — y ahí es exactamente donde la brecha de Fable 5 es más ancha.

Fable 5 vs GPT-5.5: dónde gana cada uno

GPT-5.5, lanzado en abril, sigue siendo el buque insignia de OpenAI, y la comparación está menos decantada de lo que sugiere la tabla de lanzamiento de Anthropic. En programación agéntica y trabajo de conocimiento, Fable 5 lidera con claridad: 80,0% frente a 58,6% en SWE-bench Pro, una brecha de 21,7 puntos mayor que la ventaja del propio GPT-5.5 sobre Gemini. En el benchmark financiero de Hebbia, en el legal de Harvey (13,3% vs 2,1%) y en el harness de producción de Cursor (72,9% vs 64,3%, medido por el propio Cursor), el patrón se repite. La dinámica refleja lo que ya vimos a nivel de consumo en nuestra comparativa Claude vs ChatGPT: Anthropic optimiza para la profundidad en el trabajo difícil.

Fable 5 vs GPT-5.5 en los benchmarks que ambos publican

Más alto es mejor, eje 0-100%. Fuentes: system card de Anthropic; las cifras de GPT-5.5, contrastadas con los números publicados por OpenAI. La fila de HLE es de Mythos 5 (columna Fable sin publicar, mismos pesos).

Claude Fable 5
GPT-5.5
SWE-bench Pro

80.0
58.6

Humanity’s Last Exam (con herramientas)

64.5
52.2

OSWorld-Verified

85.0
78.7

CursorBench (medido por Cursor)

72.9
64.3

GPT-5.5 conserva coronas reales, y una cobertura honesta debe nombrarlas. Tiene la mejor puntuación publicada en ARC-AGI-2 (85,0%, sin que exista cifra alguna de Fable 5), lidera FrontierMath y su ejecución de Terminal-Bench en su propio harness sigue siendo la mejor puntuación de terminal verificada de forma independiente. OpenAI también movió ficha comercialmente: el mismo día del lanzamiento de Fable 5, su app Codex estrenó flujos de migración para usuarios de Claude Code, y la compañía registró confidencialmente su salida a bolsa un día después. Nadie está regalando este mercado.

Veredicto  Fable 5 gana el trabajo que se parece a un empleo: repositorios, documentos, ejecuciones largas de agentes. GPT-5.5 conserva las coronas de razonamiento abstracto, un precio de $5/$30 y la mejor puntuación verificada de terminal en harness propio. Hasta que aparezca GPT-5.6, la ventaja de capacidad es de Anthropic.

Fable 5 vs Gemini: Google juega a otra cosa

La comparación con Google es asimétrica porque su modelo más fuerte aún no ha salido. Gemini 3.1 Pro, todavía etiquetado Preview, va por detrás en la mayoría de filas agénticas (54,2% en SWE-bench Pro, 70,7% en Terminal-Bench dentro de su propia CLI) pero conserva una corona publicada: 94,3% en GPQA Diamond, el benchmark de ciencia que los demás dejaron de reportar. Gemini 3.5 Flash, el modelo más nuevo que Google sí distribuye, es el campeón de velocidad y precio: 146 tokens por segundo a $1,50/$9 por millón, con puntuaciones agénticas que superan a su propio nivel Pro. La foto completa se parece a lo que mapeamos en nuestra comparativa Claude vs Gemini: Google compite en coste, velocidad y contexto, no en capacidad máxima.

Buque insignia, junio 2026 Claude Fable 5 GPT-5.5 Gemini 3.1 Pro / 3.5 Flash
Ventana de contexto 1M tokens, precio plano 1M API (400K en Codex) 1M / 1M
Salida máxima 128K 128K 64K / 64K
Precio entrada/salida por MTok $10 / $50 $5 / $30 (entrada x2 por encima de 272K) $2/$12 · $1.50/$9
Velocidad medida 63 tok/s n/a 111 / 146 tok/s
SWE-bench Pro 80.0% 58.6% 54.2% / 55.1%
Agente de programación Claude Code (opcional) Codex (por defecto) Gemini CLI se retira el 18 de junio; lo sustituye Antigravity

Documentación de los proveedores, 11 de junio de 2026. Gemini 3.5 Pro (2M de contexto, Deep Think) está anunciado pero sin publicar; trata sus números como marketing hasta que salga, previsto para finales de junio.

El marcador independiente: lo que miden los terceros

Las tablas de los proveedores merecen escepticismo, así que los marcadores que cuentan son los independientes. Artificial Analysis, que ejecuta sus propias evaluaciones, puntúa a Fable 5 con 65 en su Intelligence Index, primero de 152 modelos, cuatro puntos por delante de Opus 4.8 y cinco de GPT-5.5. En el ranking de preferencia humana de Arena, Fable 5 debutó número uno en texto, prompts difíciles, programación y desarrollo web, donde su Elo de 1665 queda unos 100 puntos por encima del pelotón. Anthropic ocupa ahora cinco de los nueve primeros puestos de texto, un barrido que no veíamos desde que escribimos nuestra comparativa a tres bandas de asistentes.

Artificial Analysis Intelligence Index v4 (independiente, junio de 2026)

Compuesto de 10 evaluaciones ejecutadas por Artificial Analysis. Eje 0-100. Fable 5 probado con su fallback de producción activo.

Claude Fable 565
Claude Opus 4.861
GPT-5.5 (xhigh)60
Gemini 3.1 Pro Preview57
Gemini 3.5 Flash55

Dos matices honestos de las mismas fuentes. Los intervalos de confianza de Arena todavía se solapan entre Fable 5 (1510, más menos 11) y el segundo clasificado, Opus 4.6 Thinking, con solo dos días de votos. Y Artificial Analysis señala que su ejecución de Fable 5 costó unos 2.200 dólares en un solo benchmark, con el fallback a Opus 4.8 saltando en torno al 8% de las tareas del índice. Lo que nos lleva a las dos pegas estructurales.

La trampa del harness: por qué los números de Terminal-Bench no cuadran

Terminal-Bench es donde el marketing de modelos se vuelve resbaladizo, porque el mismo modelo puntúa distinto según el harness de agente que lo ejecute. El ranking independiente tbench.ai hace medible el efecto: GPT-5.5 gana 5,2 puntos dentro de su propia Codex CLI frente al harness neutral Terminus 2, y Opus 4.8 gana 4,3 puntos dentro de Claude Code. Los proveedores luego eligen la cereza: la tabla de lanzamiento de Anthropic cita a GPT-5.5 con su mejor harness (83,4%), mientras la model card de Google cita al mismo modelo con su harness neutral (78,2%). Los dos números son ciertos. Y se llevan cinco puntos.

Terminal-Bench 2.1 Agente de programación propio Harness neutral Bonus de harness
GPT-5.5 83,4% (Codex CLI) 78.2% +5.2
Claude Opus 4.8 78,9% (Claude Code) 74.6% +4.3
Gemini 3.1 Pro 70,7% (Gemini CLI) 70.3% +0.4
Claude Fable 5 88,0% (cifra del proveedor) aún sin listar sin verificar

Filas 1-3: ranking independiente tbench.ai, consultado el 11 de junio de 2026 (barras de error de 2,2 a 2,9 puntos). Fila 4: ejecución interna de Anthropic en un tercer harness; al publicar no existía entrada independiente de Fable 5 en tbench.ai.

Así que trata el 88,0% de Fable 5 como una cifra del proveedor hasta que aterrice la fila independiente. La lección de fondo aplica a cualquier decisión de modelo: cuando comparas agentes estás comparando harnesses tanto como cerebros — por eso una prueba de una semana sobre tu propio repositorio, el consejo que damos en cada comparativa de herramientas que publicamos, vale más que cualquier ranking.

El asterisco del fallback: en parte estás midiendo a Opus 4.8

Aquí está la pega que casi ninguna cobertura del lanzamiento explica bien. Los clasificadores de seguridad de Fable 5 no bloquean las peticiones marcadas: redirigen la respuesta a Opus 4.8, de forma silenciosa para el usuario salvo por un aviso. Anthropic dice que esto toca menos del 5% de las sesiones. Pero en benchmarks la tasa sube: el 20,9% de los intentos de Terminal-Bench de la propia Anthropic tuvieron fallback a mitad de ejecución, y Artificial Analysis midió fallback en torno al 8% de las tareas de su índice y el 9% de las preguntas de Humanity’s Last Exam. Toda puntuación de Fable 5 que leas es, en rigor, la puntuación de un sistema Fable-más-Opus.

20.9%
De los intentos de Terminal-Bench de Anthropic activaron el fallback de seguridad a mitad de ejecución

~8%
De las tareas del índice de Artificial Analysis respondidas en parte por Opus 4.8

ASL-3
Régimen de despliegue, con retención de datos obligatoria de 30 días

0.03%
Del tráfico afectado por salvaguardas invisibles en peticiones sobre desarrollo de IA frontera

El mismo régimen incluye una idea genuinamente nueva: para peticiones sobre construir modelos frontera rivales, Anthropic aplica intervenciones que dice que «no serán visibles para el usuario», degradando la eficacia mediante modificación de prompts o vectores de dirección en vez de rechazar. Estima el impacto en el 0,03% del tráfico. Para la mayoría de empresas esto es irrelevante en la práctica y fascinante en principio: es el primer modelo GA que llega abiertamente con dos cerebros y un regulador de intensidad oculto. Si tu trabajo ejecuta agentes sobre infraestructura sensible — el tipo de arquitecturas de IA agéntica que mapeamos para clientes — el comportamiento del fallback pertenece a tu plan de pruebas, no a una nota al pie.

Precio: el doble de precio no es el doble de coste

La etiqueta es simple: 10 dólares por millón de tokens de entrada y 50 por millón de salida, exactamente el doble que Opus 4.8 y el modelo más caro del catálogo actual de Anthropic. La salida domina el gasto agéntico, y la escalera de junio de 2026 no perdona. Pero la economía por tarea cuenta una historia más interesante. Las estimaciones de modelado de costes de TokenMix sitúan una tarea rutinaria en 1,45 dólares con Opus 4.8 frente a 2,49 con Fable 5, mientras que una tarea de dificultad frontera se da la vuelta: 6,83 dólares con Fable 5 frente a 7,46 con Opus 4.8, porque Fable acierta más veces en menos turnos. Si quieres traducir eso a las cuentas de tu propia carga de trabajo, nuestra calculadora de ROI de IA hace exactamente esta aritmética.

Precio de salida por millón de tokens, junio de 2026 (USD)

Precios de lista de las páginas de los proveedores, 11 de junio de 2026. Precios de entrada en las etiquetas. La salida domina las cargas agénticas.

Gemini 3.5 Flash ($1,50 entrada)$9
Gemini 3.1 Pro ($2 entrada)$12
Claude Sonnet 4.6 ($3 entrada)$15
Claude Opus 4.8 ($5 entrada)$25
GPT-5.5 ($5 entrada)$30
Claude Fable 5 ($10 entrada)$50

Tres letras pequeñas juegan a favor de Fable 5. No hay recargo por contexto largo: la ventana completa de 1M cuesta tarifa plana, mientras GPT-5.5 dobla el precio de entrada a partir de 272K tokens y Gemini 3.1 Pro a partir de 200K — así que la prima se encoge justo en los trabajos de contexto gigante para los que Fable 5 está hecho. El prompt caching descuenta la entrada un 90%. Y las peticiones rechazadas antes de generar salida no se facturan, con las respuestas de fallback cobrándose de hecho a tarifas de Opus. Un impuesto genuino: el tokenizador de la generación 4.7 cuenta aproximadamente un 30% más de tokens por el mismo texto que los Claude anteriores, así que las comparaciones ingenuas contra facturas pre-2026 engañan.

Velocidad, límites y el precipicio del 22 de junio

La capacidad tiene factura de velocidad. Artificial Analysis midió Fable 5 en unos 63 tokens de salida por segundo, puesto 61 de 152 modelos, con un tiempo hasta el primer token de unos 109 segundos a esfuerzo máximo, porque el razonamiento adaptativo concentra la latencia al principio. Gemini 3.5 Flash es más del doble de rápido. En bucles agénticos, lento-pero-correcto suele ganar a rápido-pero-erróneo, pero los usuarios interactivos lo notarán. Los suscriptores sienten otra restricción: los avisos dentro de la app advierten de que Fable 5 consume los límites del plan aproximadamente el doble de rápido que Opus, y un usuario de Max documentó cómo vació una ventana completa de cinco horas en ocho minutos con razonamiento al máximo y subagentes en paralelo.

63 tok/s
Velocidad de salida medida, frente a 146 de Gemini 3.5 Flash

~109s
Tiempo hasta el primer token a esfuerzo máximo, razonamiento incluido

2x
Consumo de límites del plan más rápido que Opus, según el propio aviso de Anthropic

22 jun
Último día con Fable 5 incluido en los planes Pro/Max antes de que apliquen créditos de uso

El precipicio es el titular práctico para los suscriptores: Fable 5 está incluido en los planes Pro, Max, Team y Enterprise por asiento solo del 9 al 22 de junio. Desde el 23 de junio requiere créditos de uso prepagados que se consumen a tarifas de API, con un tope de 2.000 dólares canjeados al día, hasta que Anthropic diga que la capacidad permite devolver el acceso a los planes. Google, mientras tanto, gastó su energía de precios de junio en las suscripciones, bajando AI Ultra a 100 dólares en un nivel nuevo y 200 en el superior. La ventana gratuita de dos semanas es, en la práctica, una prueba de estrés pública — y los equipos con los que trabajamos en nuestra agencia de automatización la están usando exactamente así.

Usar Fable 5 en Claude Code hoy

Hay una afirmación circulando que conviene corregir: Fable 5 no es el modelo por defecto de Claude Code en ningún plan. Los predeterminados siguen siendo Opus 4.8 en Max, Team Premium y cuentas de API, y Sonnet 4.6 en Pro. Cambiar es un comando, /model fable, y requiere Claude Code 2.1.170 o más nuevo. La propia guía de Anthropic es ejecutar el esfuerzo en el high por defecto para la mayoría de tareas, señalando que los niveles de esfuerzo más bajos «a menudo superan el rendimiento xhigh de los modelos anteriores». Las peticiones marcadas por los clasificadores caen a Opus 4.8 con un aviso en la transcripción, y el razonamiento no se puede apagar.

Tu situación Movimiento sensato
Ingeniería dura multiarchivo o ejecuciones largas de agentes Pasa esas sesiones a Fable 5 ya, mientras los planes lo incluyen
Programación rutinaria, borradores, tareas del día a día Quédate en Opus 4.8 o Sonnet 4.6, aproximadamente la mitad de coste por tarea
Productos de API con techos de coste Enruta por dificultad: un reparto 80/20 Opus/Fable recorta el gasto ~40% en cargas modeladas
Funciones de cara al usuario sensibles a la latencia Fable 5 no: 109 s hasta el primer token a esfuerzo máximo
Requisitos de retención cero de datos Excluido: Fable 5 obliga a 30 días de retención

Para los equipos que aún están decidiendo si sus flujos están listos para todo esto, nuestro test de madurez digital en IA gratuito lleva unos minutos y te dice en qué lado de esa tabla estás.

Preguntas frecuentes sobre Fable 5

¿Qué es Claude Fable 5?

Fable 5 es el modelo disponible al público más capaz de Anthropic, lanzado el 9 de junio de 2026. Es la configuración pública de Claude Mythos 5, con los mismos pesos y clasificadores de seguridad añadidos, y se sitúa en un nivel nuevo por encima de la línea Opus, Sonnet y Haiku.

¿Es Fable 5 el modelo por defecto en Claude Code?

No. Los predeterminados siguen siendo Opus 4.8 o Sonnet 4.6 según tu plan. Fable 5 se activa con el comando /model fable y requiere Claude Code 2.1.170 o más nuevo, con el esfuerzo en high por defecto.

¿Cuánto cuesta Fable 5?

El precio de API es de 10 dólares por millón de tokens de entrada y 50 por millón de salida, el doble que Opus 4.8, con un descuento del 90% por prompt caching y sin recargo por contexto largo. Está incluido en los planes de suscripción de Claude solo hasta el 22 de junio de 2026; después requiere créditos de uso.

¿Cuánto mejor es Fable 5 que Opus 4.8?

En los benchmarks del proveedor, unos 11 puntos en SWE-bench Pro (80,0% vs 69,2%) y 2,2x en FrontierCode Diamond. De forma independiente, puntúa 65 frente a 61 en el Intelligence Index de Artificial Analysis y debutó 24 puntos de Elo por encima en el ranking de Arena.

¿Por qué Fable 5 recurre a Opus 4.8?

Los clasificadores de seguridad redirigen las peticiones marcadas — principalmente temas de ciberseguridad, biología y destilación de modelos — a Opus 4.8 en vez de rechazarlas. Anthropic informa de que afecta a menos del 5% de las sesiones, aunque ocurrió en torno al 8% de las tareas del índice de Artificial Analysis.

¿Puedo usar Claude Mythos 5?

En general, no. Mythos 5 está limitado a Project Glasswing, la colaboración de Anthropic con el gobierno de EE. UU. para ciberdefensores y operadores de infraestructuras críticas. Fable 5 es el mismo modelo con salvaguardas, disponible para todos.

¿Es Fable 5 mejor que GPT-5.5?

En la mayoría de benchmarks publicados sí, a menudo por márgenes amplios, y lidera los índices independientes. GPT-5.5 conserva la mejor puntuación en ARC-AGI-2, lidera FrontierMath, cuesta la mitad y tiene el mejor resultado de Terminal-Bench verificado de forma independiente en harness propio.

El veredicto para los equipos que eligen modelo este mes

Fable 5 es el modelo más capaz que cualquiera puede usar hoy, y la brecha es real: ventajas de dos dígitos en los benchmarks que todavía importan, confirmadas por todos los marcadores independientes que lo han probado. También es más lento, cuesta el doble y es estructuralmente novedoso de formas que piden una adopción con los ojos abiertos: parte de lo que compras es un sistema de seguridad que a veces responde con el modelo del mes pasado. El resumen honesto es que Anthropic ha publicado el nuevo techo — y le ha puesto un asterisco.

La jugada para los próximos diez días se escribe sola: la ventana de suscripción hasta el 22 de junio es una prueba gratuita de capacidad frontera a escala de producción. Apunta Fable 5 a la tarea más dura de tu backlog — ese refactor o ese análisis que nadie quiere — mide tokens y resultados contra Opus 4.8, y decide con tus propios datos: la misma disciplina que recomendamos en nuestro marco de evaluación de proveedores. Vigila dos actualizaciones que podrían mover este análisis: una fila independiente de Fable 5 en tbench.ai y el lanzamiento de Gemini 3.5 Pro previsto para finales de junio.

Si quieres ayuda para situar dónde encaja un modelo como este en tu operación, ese es el trabajo diario de nuestra agencia de automatización con IA: conectamos modelos a empresas reales y medimos lo que devuelven. Reserva una llamada de descubrimiento y trae tu flujo más difícil.

Todos los benchmarks, precios y fechas verificados el 11-12 de junio de 2026 contra las fuentes de abajo. Los modelos frontera cambian cada semana; revisa las páginas de los proveedores antes de comprometer presupuestos.

Fuentes (verificadas el 11-12 de junio de 2026):
Anthropic, anuncio de Claude Fable 5 y Claude Mythos 5: fecha de lanzamiento, posicionamiento de clase Mythos, precio $10/$50, comportamiento del fallback (menos del 5% de las sesiones), inclusión en planes hasta el 22 de junio, resultados de clientes; la system card de 319 páginas del mismo sitio aporta la tabla de benchmarks (SWE-bench Pro 80,0/69,2/58,6/54,2, OSWorld, FrontierCode, Elo GDPval-AA, USAMO), la tasa de fallback del 20,9% en Terminal-Bench, ASL-3 y la estimación de salvaguardas invisibles (~0,03% del tráfico)
Documentación de configuración de modelos de Claude Code: Fable 5 no es el predeterminado en ningún tipo de cuenta, /model fable, versión 2.1.170+, guía de esfuerzo, avisos de fallback
Artificial Analysis, Claude Fable 5: Intelligence Index independiente 65 (nº1 de 152) frente a Opus 4.8 (61), GPT-5.5 (60), Gemini 3.1 Pro (57), Gemini 3.5 Flash (55); 63,4 tok/s de velocidad de salida, ~109 s hasta el primer token, ~8% de tasa de fallback en tareas del índice, ~2.200 dólares de coste de la ejecución de Humanity’s Last Exam
Ranking de Arena (antes LMArena): Fable 5 nº1 en Elo de texto con 1510 más menos 11, nº1 en prompts difíciles, programación y desarrollo web dos días después del lanzamiento
Ranking Terminal-Bench 2.1 (tbench.ai): la matriz de harnesses (GPT-5.5 83,4 Codex CLI vs 78,2 neutral; Opus 4.8 78,9 Claude Code vs 74,6 neutral; Gemini 3.1 Pro 70,7 vs 70,3); sin fila de Fable 5 al publicar
OpenAI, documentación del modelo GPT-5.5: precio $5/$30, recargo de contexto largo por encima de 272K, límites de contexto, lanzamiento en abril de 2026, Codex por defecto
Google, precios y modelos de la API de Gemini: Gemini 3.1 Pro $2/$12 (recargo por encima de 200K), Gemini 3.5 Flash $1,50/$9, ventanas de contexto y límites de salida
Blog de desarrolladores de Google: retirada de Gemini CLI el 18 de junio de 2026 y la transición a la CLI Antigravity
Morph, análisis de costes de programación (junio de 2026): aviso de inflación por harness propio (17-21 puntos), metodología de coste por punto de benchmark, medición de un cliente con Fable 5 superando a Opus 4.8 en todos los niveles de esfuerzo siendo un 25-30% más rápido
TokenMix, modelado de costes (estimaciones): el cruce por tarea resuelta (rutinaria $1,45 Opus vs $2,49 Fable; frontera $6,83 Fable vs $7,46 Opus) y el ahorro del enrutado 80/20 (~40%)
Scroll al inicio