Les États-Unis se rapprochent d’un système plus formel d’examen des systèmes d’IA avancés avant leur mise à disposition du public. Alors que le débat se poursuit sur l’ampleur que Washington devrait donner à cette démarche, les récentes actions du département du Commerce et du National Institute of Standards and Technology montrent que la supervision avant publication n’est plus une idée théorique. Elle devient une composante de l’approche pratique du gouvernement fédéral en matière de gouvernance de l’IA.
Le signal le plus clair vient du Center for AI Standards and Innovation, ou CAISI, qui a conclu de nouveaux accords avec Google DeepMind, Microsoft et xAI pour soutenir des tests avant déploiement. Ces accords suggèrent que le gouvernement américain cherche à mettre en place un canal structuré pour évaluer les modèles de pointe avant leur publication, en particulier lorsque des risques pour la sécurité nationale peuvent être en jeu.
Un tournant vers une supervision de l’IA avant déploiement
Dans une annonce du 5 mai 2026, le NIST a indiqué que les nouvelles collaborations du CAISI visent à soutenir des « évaluations avant déploiement », ainsi que l’évaluation après déploiement et le partage d’informations. Cette formulation est importante, car elle montre que le gouvernement ne se contente pas de réagir aux systèmes d’IA une fois qu’ils sont lancés. Il veut avoir de la visibilité sur les capacités et les risques avant qu’un large accès public ne soit accordé.
Cela constitue l’un des signes officiels les plus forts à ce jour que les États-Unis envisagent une forme plus systématique de contrôle préalable à la publication des modèles d’IA. Bien que le débat public emploie parfois des termes comme « pré-autorisation », les éléments les plus fiables actuellement disponibles pointent vers un cadre d’évaluation avant déploiement soutenu par le gouvernement, plutôt que vers un régime de licence entièrement obligatoire.
Cette orientation politique s’aligne également sur la stratégie fédérale plus large en matière d’IA pour 2026. Le cadre législatif national sur l’IA de la Maison-Blanche du 20 mars 2026 soulignait qu’un leadership fédéral fort est nécessaire pour maintenir la confiance du public dans le développement et l’usage de l’IA. Dans ce contexte, l’examen avant déploiement apparaît comme un outil pratique de gouvernance plutôt que comme une proposition marginale.
Comment le CAISI est devenu le principal pôle de test du gouvernement
Le rôle central du CAISI reflète un changement institutionnel plus large. En juin 2025, le département du Commerce a indiqué qu’il transformait l’ancien U.S. AI Safety Institute en Center for AI Standards and Innovation, en lui donnant une mission plus explicite consistant à évaluer les systèmes d’IA commerciaux en développement rapide et à identifier les vulnérabilités et les menaces.
Ce même mois, le secrétaire au Commerce Howard Lutnick a déclaré que le CAISI deviendrait le principal point de contact gouvernemental du secteur pour les tests et la recherche collaborative. Il a également affirmé que le centre « établirait des accords volontaires » avec les développeurs tout en menant des évaluations non classifiées de systèmes d’IA présentant un intérêt pour la sécurité nationale. C’était un signal clair que la posture de l’administration Trump en matière de tests d’IA était explicitement axée sur un engagement avant déploiement.
La page carrières du CAISI sur le site du NIST renforce cette orientation. Elle indique que le centre a reçu dix-sept missions dans le cadre du plan d’action IA du président Trump, dont une collaboration avec des laboratoires d’IA de pointe sur des évaluations avant déploiement. Pris ensemble, ces éléments montrent que le CAISI n’est pas une expérience temporaire, mais une partie institutionnalisée de l’appareil fédéral de politique publique en matière d’IA.
La sécurité nationale au cœur du débat
La caractéristique la plus importante de cette nouvelle approche est son accent sur les risques pour la sécurité plutôt que sur la qualité ordinaire des produits. La déclaration du département du Commerce en 2025 indiquait que les évaluations du CAISI sont centrées sur des « risques démontrables, tels que la cybersécurité, la biosécurité et les armes chimiques ». Cela signifie que le gouvernement fédéral donne la priorité aux scénarios dans lesquels des modèles puissants pourraient permettre des usages abusifs graves ou des dommages stratégiques.
Il s’agit d’une évolution notable de la rhétorique officielle. Le langage de la supervision américaine relie désormais directement la régulation de l’IA à la sécurité nationale, et pas seulement à la protection des consommateurs ou aux préoccupations d’équité. Le département du Commerce a déclaré que le CAISI aiderait à évaluer à la fois les systèmes américains et ceux des adversaires, à analyser l’adoption étrangère de l’IA et à identifier les vulnérabilités en matière de sécurité ainsi que les influences malveillantes étrangères.
Ce cadrage aide à comprendre pourquoi les responsables politiques discutent de formes plus strictes de contrôle préalable. Une couverture liée à Reuters a indiqué que des responsables examinent des idées de supervision plus rigoureuses après des alertes de cybersécurité liées à un modèle de pointe. Malgré cela, la preuve la plus solide provenant directement des sources reste, à ce stade, le programme officiel d’évaluation avant déploiement du CAISI, qui donne déjà au gouvernement un mécanisme d’examen précoce.
À quoi ressemble concrètement le test avant publication
Le CAISI a clairement indiqué que l’évaluation avant déploiement n’est pas un exercice symbolique. Selon le NIST, le centre a déjà réalisé plus de 40 évaluations, y compris des analyses de modèles de pointe non encore publiés. Ce bilan suggère que le gouvernement a déjà acquis une expérience opérationnelle significative dans le test de systèmes de pointe avant leur lancement public.
Certaines de ces évaluations peuvent impliquer un accès inhabituellement ouvert pour les testeurs gouvernementaux. Le CAISI a déclaré que les développeurs fournissent fréquemment des versions de modèles dont les garde-fous sont réduits ou supprimés afin que les évaluateurs puissent examiner de manière approfondie les capacités et les risques liés à la sécurité nationale. En pratique, cela permet aux testeurs d’examiner ce qu’un modèle pourrait faire dans des conditions moins contraintes, plutôt que de s’appuyer uniquement sur la version publique finalisée.
Les accords soutiennent également les tests dans des environnements classifiés. Ce détail est particulièrement significatif, car il indique que le gouvernement fédéral s’attend à ce que certaines évaluations de l’IA impliquent des modèles de menace sensibles, des scénarios liés au renseignement ou des données sécurisées. Le NIST a aussi souligné que ces accords ont été rédigés de manière à rester flexibles à mesure que la technologie de l’IA évolue rapidement, ce qui est essentiel dans un domaine où les capacités peuvent progresser en quelques mois plutôt qu’en années.
Construire des normes, des références et une méthodologie
L’examen avant déploiement ne fonctionne que si le gouvernement peut évaluer les modèles de façon rigoureuse et reproductible. La publication de recherche du NIST de mars 2026 décrivait explicitement les évaluations avant déploiement comme utiles pour apprécier les capacités des systèmes d’IA à plusieurs étapes avant leur publication, tout en notant que ces évaluations sont généralement réalisées dans des environnements contrôlés. Cela reflète une philosophie de gouvernance fondée sur des preuves mesurables.
Les travaux d’évaluation publiés par le CAISI offrent un aperçu de cette méthodologie. Le 1er mai 2026, le NIST a publié une évaluation du DeepSeek V4 Pro par le CAISI concluant que le modèle accusait un retard d’environ huit mois sur les capacités de pointe les plus avancées. Le rapport comparait les performances sur des références en cybersécurité, ingénierie logicielle, sciences, raisonnement et mathématiques, montrant que les évaluations gouvernementales ne sont pas simplement des résumés politiques de haut niveau, mais des analyses techniques aux implications concurrentielles et stratégiques.
Cette même évaluation de DeepSeek mettait également l’accent sur la rigueur méthodologique. Le CAISI a indiqué avoir utilisé une suite de références préalablement arrêtée et intégré des références réservées ou non publiques afin de réduire la contamination et d’améliorer la fiabilité. Ce type de conception est important, car la fuite des benchmarks est devenue une préoccupation majeure dans l’évaluation de l’IA, et un contrôle crédible avant publication dépend de tests que les modèles n’ont pas déjà été entraînés à réussir parfaitement.
De la collaboration volontaire aux contrôles par les achats publics
Pour l’instant, la structure la plus visible reste un système d’accords volontaires entre le CAISI et les principaux développeurs. Les nouveaux accords avec Google DeepMind, Microsoft et xAI s’inscrivent dans ce modèle, permettant aux experts gouvernementaux de mener des évaluations avant publication tout en contribuant à l’amélioration des produits et à une meilleure compréhension officielle des capacités des modèles.
Dans le même temps, Washington met en place des canaux d’évaluation supplémentaires susceptibles d’étendre l’influence de l’examen avant déploiement. En mars 2026, le CAISI a signé un protocole d’accord avec la General Services Administration afin de soutenir des lignes directrices méthodologiques pour les évaluations avant déploiement et des outils de mesure des performances après déploiement dans le cadre des achats fédéraux d’IA.
Cette filière d’achats est importante, car les achats publics peuvent façonner le comportement du secteur même en l’absence d’un régime formel de licence obligatoire. Si les acheteurs fédéraux exigent de plus en plus des preuves solides avant déploiement, les développeurs pourraient subir une pression de marché les incitant à adopter des pratiques de test standardisées. Avec le temps, cela pourrait faire fonctionner le contrôle volontaire comme une exigence de facto pour les systèmes d’IA commercialement importants.
Le défi plus large de la surveillance et des agents d’IA
Les tests avant publication ne peuvent pas, à eux seuls, résoudre tous les problèmes de gouvernance de l’IA. Les publications du NIST de janvier et mars 2026 sur les agents d’IA et la surveillance suggèrent que l’agence se concentre également sur des pratiques de développement, de déploiement et de suivi sécurisés qui complètent l’évaluation avant déploiement. Cela reflète la réalité selon laquelle les systèmes avancés peuvent se comporter différemment une fois intégrés à des outils, des flux de travail ou des environnements agentiques autonomes.
Les agents d’IA constituent un argument particulièrement fort en faveur d’une supervision à plusieurs niveaux. Un modèle qui semble maîtrisable dans un environnement de laboratoire peut présenter de nouveaux risques lorsqu’on lui donne accès à des systèmes logiciels, à des outils externes ou à des boucles de planification itératives. Pour cette raison, les évaluations avant déploiement doivent être comprises comme une étape d’une approche plus large de gestion des risques sur l’ensemble du cycle de vie.
Les travaux du CAISI dans le cadre de la TRAINS Taskforce soutiennent également ce modèle plus large. En réunissant des experts interagences sur les préoccupations liées à la sécurité nationale en matière d’IA, le gouvernement met en place un processus plus institutionnalisé de partage d’expertise, d’évaluation des menaces évolutives et de mise en relation de l’évaluation des modèles avec les réalités opérationnelles de sécurité.
Ce que cela signifie pour l’avenir de la gouvernance de l’IA
L’approche actuelle des États-Unis suggère que le contrôle préalable à la publication des modèles d’IA passe du débat politique à une réalité administrative. Le gouvernement dispose d’une institution identifiée, d’accords formels avec des laboratoires de pointe, de méthodes d’évaluation publiées, de voies de test classifiées et d’un cadre croissant lié aux achats publics. Même s’il n’existe aujourd’hui aucune règle universelle de pré-autorisation obligatoire, l’infrastructure d’un examen plus approfondi avant déploiement prend clairement forme.
Cette évolution pourrait avoir des conséquences majeures à la fois pour les développeurs d’IA et pour les décideurs publics. Les entreprises pourraient devoir se préparer à un engagement plus intensif avec les évaluateurs fédéraux, en particulier lorsque les modèles ont des implications en matière de cybersécurité, de biosécurité ou dans d’autres domaines de la sécurité nationale. Dans le même temps, les agences gouvernementales devront trouver un équilibre entre rapidité, innovation, confidentialité et responsabilité publique à mesure qu’elles étendent ces systèmes d’examen.
En définitive, le débat ne porte plus sur la question de savoir si Washington doit prêter attention avant la publication de modèles puissants. Il porte sur le degré de formalisation, d’ampleur et de caractère contraignant que cette supervision doit prendre. Avec un CAISI qui mène déjà des dizaines d’évaluations et conclut de nouveaux accords avec des laboratoires de premier plan, les États-Unis ont franchi des étapes concrètes vers un avenir dans lequel la supervision de l’IA avant déploiement joue un rôle central dans la politique nationale.
Cela ne signifie pas que toutes les questions sont réglées. La frontière entre coopération volontaire et examen contraignant reste politiquement sensible, et le rythme rapide du développement des modèles continuera de mettre à l’épreuve la capacité du gouvernement à suivre. Néanmoins, la direction est sans équivoque : les responsables américains considèrent de plus en plus les tests avant déploiement comme un outil central de gestion des risques liés à l’IA de pointe.