OpenAI a précédemment dévoilé son premier nouveau modèle d'IA fonctionnant sur une puce Cerebras Systems.GPT-5.3-Codex-SparkC’est la première fois qu’OpenAI déplace la base informatique de ses produits hors des puces NVIDIA, marquant le début de sa stratégie de diversification de sa chaîne d’approvisionnement en puces et donnant un coup de pouce important aux accélérateurs d’IA en dehors du camp NVIDIA.
Doté d'un « raisonnement ultra-rapide », ce modèle léger est spécialement conçu pour l'écriture de programmes.
La nouvelle version GPT-5.3-Codex-Spark est une version allégée de Codex, un outil d'automatisation de code d'OpenAI. Sa conception privilégie l'efficacité à la performance ultime dans les calculs complexes.
Pour les ingénieurs logiciels, l'aspect le plus important d'un assistant de programmation IA est sa « réponse instantanée ». GPT-5.3-Codex-Spark permet aux développeurs d'effectuer rapidement des tâches routinières telles que la modification de code et l'exécution de tests, et peut même interrompre le travail en cours à tout moment pour assigner de nouvelles tâches, réduisant considérablement le temps d'attente pour que l'IA génère des résultats.
Derrière cette rapidité se cache la collaboration entre OpenAI et la start-up de puces IA Cerebras Systems, le mois dernier.Un contrat de plusieurs milliards de dollarsLe modèle fonctionne actuellement sur le Wafer Scale Engine 3 (WSE-3), le fleuron de Cerebras Systems, un accélérateur d'IA massif conçu spécifiquement pour l'inférence à haute vitesse.
Une refonte majeure des pipelines sous-jacents a permis de réduire la latence de 80 %.
Pour compléter l'architecture matérielle de Cerebras Systems, OpenAI a non seulement optimisé le nouveau processeur, mais a également considérablement amélioré l'ensemble du pipeline d'inférence. Ces améliorations structurelles ont permis d'obtenir des gains de performance substantiels :
• Le retard aller-retour a été réduit de 80 %.La vitesse de communication entre le client et le serveur a été considérablement améliorée.
• Temps d'affichage du premier caractère (TTFT) réduit de 50 % :Le temps de réaction de l'IA pour produire son premier morceau de code est divisé par deux.
• Coût par jeton réduit de 30 % :Le coût de calcul a considérablement diminué.
• Améliorer le temps de connexion WebSocket :Activé par défaut pour garantir la stabilité et l'immédiateté de la conversation.
Actuellement, GPT-5.3-Codex-Spark est un modèle en texte brut avec une fenêtre de contexte de 128 Ko et ne prend pas encore en charge les images ni les entrées multimodales. Ce modèle est actuellement disponible en version préliminaire pour les abonnés à ChatGPT Pro ; une disponibilité plus large est prévue dans les prochaines semaines.
Tout en développant activement son réseau de partenaires, NVIDIA reste le « principal acteur ».
Cette collaboration représente une avancée majeure pour Cerebras Systems, qui met fin à la domination de longue date de NVIDIA sur le marché. Pour OpenAI, il s'agit simplement du dernier développement d'une série de mesures récentes visant à « diversifier les risques liés aux fournisseurs ».
En octobre dernier, OpenAI avait déjà conclu un accord pluriannuel avec AMD, prévoyant le déploiement d'une puissance de calcul GPU allant jusqu'à 6 GW. Le même mois, elle avait également signé un contrat avec Broadcom pour le développement de circuits intégrés spécifiques (ASIC) et de composants réseau sur mesure.
Cependant, face aux rumeurs de tensions entre OpenAI et NVIDIA, les responsables d'OpenAI sont rapidement intervenus pour les démentir. Un porte-parole a souligné le caractère fondamental du partenariat avec NVIDIA et a réaffirmé que le matériel NVIDIA demeure essentiel à l'architecture d'entraînement et d'inférence d'OpenAI. L'intégration des puces Cerebras Systems, AMD et Broadcom vise uniquement à « développer l'écosystème ».



