OpenAI déploie Codex sur les puces Cerebras

Author auto-post.io
20/02/2026
9 min. de lecture
Résumer cet article avec:
OpenAI déploie Codex sur les puces Cerebras

OpenAI a commencé à proposer une nouvelle expérience Codex sur du matériel d'inférence spécialisé de Cerebras, marquant un changement notable dans la façon dont des outils de pointe pour développeurs peuvent être fournis à vitesse interactive. Le 12 février 2026, OpenAI a confirmé un aperçu de recherche appelé GPT‑5.3‑Codex‑Spark, le décrivant comme optimisé pour donner une sensation « quasi‑instantanée » lorsqu'il fonctionne sur le Wafer Scale Engine 3 (WSE‑3) de Cerebras.

La promesse principale est le débit : OpenAI affirme que Codex‑Spark peut délivrer plus de 1 000 tokens par seconde, un chiffre repris par Cerebras et largement relayé par des médias comme TechCrunch et Tom’s Hardware. Au‑delà de la vitesse brute, OpenAI a également mis en avant des améliorations du service, comme des WebSockets persistants et des réductions substantielles des frais généraux, visant à faire en sorte que la collaboration sur le code ressemble moins à une inférence par lots et davantage à une interaction en temps réel.

1) Ce qu'OpenAI a réellement lancé : GPT‑5.3‑Codex‑Spark

L'annonce d'OpenAI présente Codex‑Spark comme un aperçu de recherche plutôt que comme un remplacement universel et complet des expériences Codex existantes. La société l'a explicitement encadré comme le « premier jalon » du partenariat OpenAI↔Cerebras, servi sur la plateforme WSE‑3.

D'un point de vue technique, OpenAI indique que Spark est livré avec une fenêtre de contexte de 128k et est uniquement textuel au lancement. Cette combinaison cible directement les grands bases de code et les longues conversations, tout en maintenant la voie d'inférence simplifiée pour la vitesse et la réactivité.

Le nom, GPT‑5.3‑Codex‑Spark, signale également l'intention : il s'agit d'une variante de modèle spécialisée Codex dans la famille GPT‑5.3, ajustée pour une expérience utilisateur particulière. OpenAI la décrit comme optimisée pour donner une sensation « quasi‑instantanée », avec « plus de 1000 tokens par seconde », ce qui implique fortement que l'objectif produit est l'itération interactive plutôt que un temps de réflexion maximal.

2) Pourquoi le WSE‑3 de Cerebras compte pour Codex

L'approche Wafer Scale Engine de Cerebras diffère des déploiements GPU conventionnels en utilisant un système à puce de type wafer‑scale conçu pour les lourdes charges de travail de réseaux neuronaux. Dans le déploiement de Codex‑Spark, OpenAI a confirmé que Spark « fonctionne sur le Wafer Scale Engine 3 de Cerebras », et Cerebras a souligné séparément qu'il est « propulsé par Cerebras » et « fonctionne à plus de 1 000 tokens/s ».

Pour les développeurs, la signification pratique de cette architecture tient moins à la nouveauté du silicium qu'à ce qu'elle permet au niveau produit : une latence qui donne l'impression d'être immédiate, et un débit capable de suivre des invites rapides, des autocomplétions, des refactorings et des sessions de débogage itératives.

Plusieurs rapports ont présenté cela comme un jalon significatif en matière de chaîne d'approvisionnement et de déploiement. Tom’s Hardware l'a caractérisé comme le premier déploiement de production d'OpenAI en dehors du matériel Nvidia, tandis que le média suédois Omni (citant Bloomberg) l'a aussi décrit comme le premier modèle d'OpenAI fonctionnant sur des puces Cerebras, soulignant la narration plus large selon laquelle OpenAI s'étend au‑delà d'un seul écosystème matériel.

3) L'histoire de la vitesse : >1 000 tokens par seconde et une sensation « quasi‑instantanée »

Le métrique le plus répété dans les couvertures est le débit. Le propre message d'OpenAI affirme « délivrer plus de 1000 tokens par seconde », et l'annonce de Cerebras dit de même que Codex‑Spark s'exécute à « plus de 1 000 tokens/s ». Forbes a également mis en avant 1 000 tokens par seconde comme chiffre phare du lancement.

Le seul débit ne garantit pas une excellente expérience développeur, mais il peut fondamentalement changer la façon dont les outils se perçoivent, surtout lorsque les flux de travail de codage impliquent des échanges courts et fréquents. Dans ces contextes, pouvoir générer et diffuser des tokens très rapidement peut faire la différence entre une boucle « attente d'inférence » et une boucle « conversation avec un collaborateur ».

TechCrunch a décrit Spark comme une version d'inférence plus légère et plus rapide conçue pour « l'itération rapide », et a rapporté qu'il serait alimenté par le WSE‑3. Cette description s'aligne sur le positionnement d'OpenAI : Spark vise à mettre l'accent sur la réactivité, transformant Codex en quelque chose qui se comporte davantage comme un système en temps réel que comme une requête en file d'attente.

4) Améliorations du service et du réseau : d'où viennent les réductions de latence

OpenAI n'a pas attribué l'amélioration de l'expérience uniquement au matériel. La société a aussi détaillé des changements dans la pile de service, incluant l'utilisation d'une connexion WebSocket persistante, un choix architectural qui réduit le coût de mise en place répété qui peut s'accumuler dans les sessions interactives.

Dans le même post du 12 février 2026, OpenAI a affirmé avoir « réduit le surcoût par aller‑retour client/serveur de 80% », « le surcoût par token de 30% » et « le temps jusqu'au premier token de 50% ». Ce sont des métriques orientées produit : elles reflètent les parties du système que les utilisateurs ressentent réellement, comme le délai avant que les premiers mots diffusés n'apparaissent.

Ensemble, ces optimisations réseau et de service aident à expliquer comment Codex‑Spark vise cette sensation « quasi‑instantanée ». Même avec un matériel d'inférence extrêmement rapide, des aller‑retours mal optimisés et une diffusion de tokens peu performante peuvent atténuer la performance perçue : le déploiement associe donc le débit du WSE‑3 à des réductions de latence au niveau logiciel.

5) Où Codex‑Spark est disponible (et qui y a accès en premier)

Le déploiement d'OpenAI est volontairement circonscrit. Codex‑Spark est introduit comme un aperçu de recherche pour les utilisateurs de ChatGPT Pro, accessible via l'application Codex, le CLI et une extension VS Code. TechCrunch a confirmé cette disponibilité initiale, en insistant sur le fait que le niveau Pro est le premier public.

OpenAI a aussi noté que Spark utilise des limites de taux distinctes des autres expériences, impliquant une planification de capacité et une gestion du trafic spécifiques à cette nouvelle voie de service. Cette séparation est importante lors des premiers déploiements, où une équipe produit peut être en train d'ajuster activement la performance, la fiabilité et les coûts.

L'accès via l'API est plus restreint : OpenAI a décrit une disponibilité API limitée aux partenaires de conception. Ce type de distribution progressive suggère qu'OpenAI recueille des retours sur des charges de travail de codage réelles avant d'élargir l'accès, surtout compte tenu du comportement axé sur la vitesse du modèle et de sa nouvelle empreinte matérielle.

6) Une stratégie matérielle mixte : les GPU restent fondamentaux, Cerebras vient en complément

OpenAI a explicitement présenté Codex‑Spark comme faisant partie d'une stratégie matérielle plus large plutôt que d'une rupture nette. Dans son article de lancement, OpenAI a écrit que « les GPU restent fondamentaux », tandis que « Cerebras complète cette fondation », et a ajouté que « GPU et Cerebras peuvent être combinés pour des charges de travail uniques ».

Cela importe parce que l'industrie traite souvent les choix matériels comme un jeu à somme nulle. Le langage d'OpenAI suggère une approche par portefeuille : les GPU pour la généralité et le large support de l'écosystème, et les systèmes wafer‑scale là où ils offrent des avantages convaincants, comme un débit de tokens ultra‑élevé et des outils développeurs interactifs.

Plusieurs rapports ont interprété ce moment comme une diversification des infrastructures. Le Financial Times a évoqué un accord pluriannuel, décrit comme 10 milliards de dollars pour 750 MW jusqu'en 2028, dans le cadre d'une expansion des approvisionnements au‑delà de Nvidia. Même si les déploiements produits restent hétérogènes, Codex‑Spark rend cette stratégie visible pour les utilisateurs finaux pour la première fois.

7) L'échelle du partenariat : 750 MW et un déploiement échelonné à partir de 2026

Cerebras a décrit le partenariat en termes d'infrastructure exceptionnellement importants. Dans un post du 14 janvier 2026, la société a indiqué qu'OpenAI et Cerebras avaient signé un accord pluriannuel pour déployer « 750 mégawatts » de systèmes wafer‑scale pour les clients d'OpenAI, avec un déploiement par étapes commençant en 2026.

Ce chiffre est significatif car il suggère que le jalon Codex‑Spark n'est pas une expérience ponctuelle mais fait partie d'une feuille de route de capacité. Une capacité d'inférence à grande échelle peut se traduire par une disponibilité plus large, une meilleure latence aux heures de pointe et la capacité de prendre en charge davantage de sessions interactives simultanément, à condition que le logiciel de service et le packaging produit suivent le rythme.

Les reportages externes apportent plus de contexte. Le Financial Times a estimé l'accord à 10 milliards de dollars et s'étendant jusqu'en 2028, le caractérisant comme partie des efforts d'OpenAI pour diversifier l'approvisionnement en infrastructures. Indépendamment des termes financiers exacts, les messages publics des deux entreprises indiquent un engagement sur le long terme plutôt qu'un simple pilote à court terme.

8) Direction produit : deux modes Codex complémentaires

La vitesse n'est pas le seul objectif qu'OpenAI a souligné. La société a décrit Codex‑Spark comme « la première étape vers un Codex qui fonctionne en deux modes complémentaires », couvrant la « collaboration en temps réel » et les « tâches de longue durée ». Ce cadrage implique une expérience Codex future capable de passer de l'immédiateté à la profondeur selon la tâche.

Codex‑Spark vise clairement l'extrémité « temps réel » de ce spectre : diffusion rapide, réduction des surcoûts, et une expérience conçue pour l'itération rapide. Si vous pensez au pair programming, à une revue de code rapide ou à des boucles de rétroaction serrées lors d'un refactoring, l'accent « quasi‑instantané » soutient directement ces comportements.

En même temps, la mention par OpenAI de tâches de longue durée suggère un flux de travail complémentaire où le modèle peut prendre plus de temps, peut‑être pour mener un raisonnement étendu, réaliser des modifications multi‑fichiers ou exécuter des plans en plusieurs étapes. L'idée des deux modes laisse entendre que différentes piles de service ou profils matériels (y compris des charges de travail combinant GPU et Cerebras) pourraient être orchestrés en arrière‑plan pour correspondre à l'intention de l'utilisateur.

Le lancement de Codex‑Spark montre comment capacité du modèle, architecture de service et choix matériel peuvent converger pour donner une sensation produit sensiblement différente. Avec OpenAI revendiquant des améliorations majeures du temps jusqu'au premier token et des aller‑retours, plus un débit supérieur à 1 000 tokens par seconde sur le Cerebras WSE‑3, le lancement concerne autant le design de l'interaction que le silicium.

Que cela devienne le nouveau standard pour l'IA axée sur le code dépendra de la fiabilité, du coût et de la qualité d'exécution par OpenAI de la vision plus large des deux modes Codex complémentaires. Pour l'instant, l'aperçu de recherche pour les utilisateurs de ChatGPT Pro est une première étape concrète : OpenAI n'a pas seulement évoqué la diversification de l'infrastructure d'inférence, il a livré une expérience destinée aux développeurs qui place directement les puces Cerebras dans la boucle.

Prêt à commencer ?

Commencez à automatiser votre contenu dès aujourd'hui

Rejoignez les créateurs de contenu qui font confiance à notre IA pour générer des articles de blog de qualité et automatiser leur flux de publication.

Aucune carte de crédit requise
Annulez à tout moment
Accès instantané
Résumer cet article avec:
Partager cet article :