OpenAI ha comenzado a ofrecer una nueva experiencia Codex en hardware de inferencia especializado de Cerebras, marcando un cambio notable en cómo las herramientas de desarrollo de última generación pueden entregarse a velocidad interactiva. El 12 de feb de 2026, OpenAI confirmó una vista previa de investigación llamada GPT‑5.3‑Codex‑Spark, describiéndola como optimizada para sentirse “casi instantánea” mientras se ejecuta en el Wafer Scale Engine 3 (WSE‑3) de Cerebras.
La promesa principal es el rendimiento: OpenAI dice que Codex‑Spark puede ofrecer más de 1.000 tokens por segundo, una cifra que repiten Cerebras y medios como TechCrunch y Tom’s Hardware. Más allá de la velocidad bruta, OpenAI también destacó mejoras en el servicio, como WebSockets persistentes y reducciones sustanciales de la sobrecarga, orientadas a hacer que la colaboración en código se sienta menos como inferencia por lotes y más como interacción en tiempo real.
1) Lo que OpenAI lanzó en realidad: GPT‑5.3‑Codex‑Spark
El anuncio de OpenAI posiciona a Codex‑Spark como una vista previa de investigación en lugar de un reemplazo universal y completo de las experiencias Codex existentes. La empresa lo enmarcó explícitamente como el “primer hito” en la asociación OpenAI↔Cerebras, servido en la plataforma WSE‑3.
Técnicamente, OpenAI afirma que Spark se entrega con una ventana de contexto de 128k y es sólo de texto en el lanzamiento. Esa combinación está dirigida directamente a grandes bases de código y largos hilos de conversación, al tiempo que mantiene optimizada la ruta de inferencia para velocidad y capacidad de respuesta.
El nombre, GPT‑5.3‑Codex‑Spark, también señala la intención: esta es una variante de modelo especializada en Codex dentro de la familia GPT‑5.3, afinada para una experiencia de usuario particular. OpenAI la describe como optimizada para sentirse “casi instantánea”, con “más de 1000 tokens por segundo”, lo que implica fuertemente que el objetivo del producto es la iteración interactiva más que el tiempo máximo de deliberación.
2) Por qué importa Cerebras WSE‑3 para Codex
El enfoque Wafer Scale Engine de Cerebras difiere de los despliegues convencionales con GPU al usar un único sistema de chip a escala de oblea diseñado para grandes cargas de trabajo de redes neuronales. En el despliegue de Codex‑Spark, OpenAI confirmó que Spark “se ejecuta en el Wafer Scale Engine 3 de Cerebras”, y Cerebras enfatizó por su parte que está “impulsado por Cerebras” y “funciona a más de 1.000 tokens/s”.
Para los desarrolladores, el significado práctico de esta arquitectura tiene menos que ver con la novedad del silicio y más con lo que permite en la capa de producto: latencias que se sienten inmediatas y un rendimiento que puede seguir el ritmo de indicaciones rápidas, autocompletados, refactorizaciones y sesiones iterativas de depuración.
Varios informes enmarcaron esto como un hito significativo en la cadena de suministro y el despliegue. Tom’s Hardware lo caracterizó como el primer despliegue de producción de OpenAI fuera del hardware de Nvidia, mientras que el medio sueco Omni (citando a Bloomberg) también lo describió como el primer modelo de OpenAI que se ejecuta en chips de Cerebras, subrayando la narrativa más amplia de que OpenAI se está expandiendo más allá de un único ecosistema de hardware.
3) La historia de la velocidad: >1.000 tokens por segundo y sensación “casi instantánea”
La métrica más repetida en la cobertura es el rendimiento. La propia publicación de OpenAI afirma “entregar más de 1000 tokens por segundo”, y el anuncio de Cerebras dice de forma similar que Codex‑Spark funciona a “más de 1.000 tokens/s”. Forbes también destacó los 1.000 tokens por segundo como un número emblemático para el lanzamiento.
El rendimiento por sí solo no garantiza una gran experiencia para desarrolladores, pero puede cambiar fundamentalmente la sensación de las herramientas, especialmente cuando los flujos de trabajo de codificación implican intercambios cortos y frecuentes. En esos entornos, poder generar y transmitir tokens extremadamente rápido puede marcar la diferencia entre un ciclo de “esperando la inferencia” y un ciclo de “conversando con un colaborador”.
TechCrunch describió a Spark como una versión de inferencia más ligera y rápida diseñada para la “iteración rápida”, y reportó que estará potenciada por WSE‑3. Esa descripción se alinea con el posicionamiento de OpenAI: Spark pretende enfatizar la capacidad de respuesta, convirtiendo a Codex en algo que se comporta más como un sistema en tiempo real que como una solicitud en cola.
4) Mejoras en el servicio y la red: de dónde provienen las reducciones de latencia
OpenAI no atribuyó la mejora de la experiencia únicamente al hardware. La compañía también detalló cambios en la pila de servicio, incluyendo el uso de una conexión WebSocket persistente, una elección arquitectónica que reduce el coste de configuración repetido que puede acumularse en sesiones interactivas.
En la misma publicación del 12 de feb de 2026, OpenAI afirmó que “redujo el tiempo por ida y vuelta cliente/servidor en un 80%”, “la sobrecarga por token en un 30%” y “el tiempo hasta el primer token en un 50%”. Estas son métricas orientadas al producto: reflejan las partes del sistema que los usuarios realmente perciben, como la demora antes de que aparezcan las primeras palabras transmitidas.
En conjunto, estas optimizaciones en la red y el servicio ayudan a explicar cómo Codex‑Spark apunta a esa sensación “casi instantánea”. Incluso con hardware de inferencia extremadamente rápido, los viajes de ida y vuelta y la transmisión de tokens mal optimizados pueden atenuar el rendimiento percibido, por lo que el despliegue combina el rendimiento de WSE‑3 con recortes de latencia en la capa de software.
5) Dónde está disponible Codex‑Spark (y quién lo recibe primero)
El despliegue de OpenAI está intencionalmente acotado. Codex‑Spark se está introduciendo como una vista previa de investigación para usuarios de ChatGPT Pro, accesible a través de la aplicación Codex, la CLI y una extensión de VS Code. TechCrunch confirmó esta disponibilidad inicial, enfatizando que el nivel Pro es el primer público.
OpenAI también señaló que Spark usa límites de tasa separados de otras experiencias, lo que implica planificación de capacidad y modelado de tráfico específicos para esta nueva ruta de servicio. Esa separación es importante en despliegues tempranos, donde un equipo de producto puede estar afinando activamente rendimiento, fiabilidad y costo.
El acceso a la API es más restringido: OpenAI describió disponibilidad limitada de la API para socios de diseño. Este tipo de distribución por fases sugiere que OpenAI está recopilando comentarios sobre cargas de trabajo reales de codificación antes de ampliar el acceso, especialmente dada la conducta orientada a la velocidad del modelo y su nueva huella de hardware.
6) Una estrategia de hardware mixta: las GPUs siguen siendo fundamentales, Cerebras complementa
OpenAI enmarcó explícitamente a Codex‑Spark como parte de una estrategia de hardware más amplia en lugar de una ruptura total. En su publicación de lanzamiento, OpenAI escribió que “las GPUs siguen siendo fundamentales”, mientras que “Cerebras complementa esa base”, y añadió que “las GPUs y Cerebras pueden combinarse para cargas de trabajo individuales”.
Esto importa porque la industria a menudo trata las elecciones de hardware como suma cero. El lenguaje de OpenAI sugiere un enfoque de portafolio: GPUs para la generalidad y el amplio soporte del ecosistema, y sistemas a escala de oblea donde ofrecen ventajas atractivas, como un rendimiento de tokens ultraalto y herramientas de desarrollo interactivas.
Varios informes interpretaron este momento como diversificación de infraestructura. Financial Times informó de un acuerdo plurianual, descrito como $10B por 750 MW hasta 2028, como parte de la expansión del suministro más allá de Nvidia. Incluso si los despliegues de producto siguen siendo heterogéneos, Codex‑Spark hace visible esa estrategia a los usuarios finales por primera vez.
7) La escala de la asociación: 750 MW y un despliegue por fases que comienza en 2026
Cerebras ha descrito la asociación en términos de infraestructura inusualmente grandes. En una publicación del 14 de ene de 2026, la compañía dijo que OpenAI y Cerebras firmaron un acuerdo multianual para desplegar “750 megavatios” de sistemas a escala de oblea para clientes de OpenAI, implementándose por fases a partir de 2026.
Esa cifra es significativa porque sugiere que el hito Codex‑Spark no es un experimento aislado sino parte de una hoja de ruta de capacidad. La capacidad de inferencia a gran escala puede traducirse en una mayor disponibilidad, mejor latencia en horas pico y la capacidad de soportar más sesiones interactivas concurrentes, siempre que el software de servicio y el empaquetado del producto sigan el ritmo.
La cobertura externa aporta más contexto. Financial Times ubicó el acuerdo en $10B y con vigencia hasta 2028, caracterizándolo como parte de los esfuerzos de OpenAI para diversificar el suministro de infraestructura. Independientemente de los términos financieros exactos, los mensajes públicos de ambas compañías indican un compromiso a largo plazo más que un piloto corto.
8) Dirección del producto: dos modos complementarios de Codex
La velocidad no es el único objetivo que destacó OpenAI. La compañía describió a Codex‑Spark como “el primer paso hacia un Codex que funcione en dos modos complementarios”, que abarcarían “colaboración en tiempo real” y “tareas de larga duración”. Ese planteamiento sugiere una experiencia futura de Codex que pueda cambiar entre inmediatez y profundidad según la tarea.
Codex‑Spark claramente apunta al extremo de “tiempo real” de ese espectro: transmisión rápida, reducción de la sobrecarga y una experiencia diseñada para la iteración veloz. Si piensas en programación en pareja, revisión rápida de código o bucles de retroalimentación cerrados durante una refactorización, el énfasis en lo “casi instantáneo” respalda directamente esos comportamientos.
Al mismo tiempo, la mención de OpenAI sobre tareas de larga duración sugiere un flujo de trabajo complementario donde el modelo puede tomarse más tiempo, quizá para realizar razonamientos extendidos, cambios en múltiples archivos o planes de varios pasos. La idea de dos modos insinúa que diferentes pilas de servicio o perfiles de hardware (incluida la combinación de GPU+Cerebras) podrían orquestarse internamente para adecuarse a la intención del usuario.
El debut de Codex‑Spark muestra cómo la capacidad del modelo, la arquitectura de servicio y la elección de hardware pueden converger en una sensación de producto notablemente diferente. Con OpenAI afirmando mejoras importantes en el tiempo hasta el primer token y en los viajes de ida y vuelta, además de un rendimiento superior a 1.000 tokens por segundo en Cerebras WSE‑3, el lanzamiento trata tanto de diseño de interacción como de silicio.
Si esto se convierte en el nuevo valor predeterminado para la IA enfocada en código dependerá de la fiabilidad, el costo y de qué tan bien OpenAI ejecute la visión más amplia de dos modos complementarios de Codex. Por ahora, la vista previa de investigación para usuarios de ChatGPT Pro es un primer paso concreto: OpenAI no solo ha hablado de diversificar la infraestructura de inferencia, sino que ha lanzado una experiencia orientada a desarrolladores que pone los chips de Cerebras directamente en el circuito.