Le 5 février 2026, Anthropic a lancé Claude Opus 4.6 avec une fenêtre de contexte d’un million de tokens (bêta), la décrivant comme « une première pour nos modèles de classe Opus ». Dans l’annonce officielle, Anthropic a réitéré : « Opus 4.6 propose une fenêtre de contexte d’un million de tokens en bêta », signalant un saut majeur pour les équipes qui travaillent régulièrement avec des bases de code tentaculaires, des enquêtes multi-documents et des flux de travail de connaissance denses.
Le contexte long n’est pas seulement un tampon plus grand pour les invites ; il change la manière dont les personnes structurent le travail avec l’IA. Plutôt que de découper les documents en dizaines d’appels ou de construire des pipelines de récupération élaborés pour chaque tâche, un million de tokens permet à un modèle de suivre bien plus directement le matériau source, rendant possible une analyse qui se rapproche davantage de « lire tout d’abord, puis répondre » que de « chercher et assembler ».
Ce que signifie réellement « une fenêtre de contexte d’un million de tokens » en pratique
Une fenêtre de contexte est la quantité de texte que le modèle peut considérer à la fois, incluant votre prompt, les sorties des outils et les tours de conversation antérieurs. Avec Claude Opus 4.6 passant à une fenêtre de contexte d’un million de tokens en bêta, le plafond s’élève de manière spectaculaire pour les charges de travail qui nécessitaient auparavant de diviser les entrées en de nombreux segments plus petits.
Pour traduire l’échelle en quelque chose de concret, la couverture de contexte long antérieure autour de Claude Sonnet 4 citait souvent une équivalence approximative d’environ « ~750 000 mots » pour un million de tokens (une comparaison largement répétée lorsque Sonnet 4 a atteint 1M de contexte en 2025). La correspondance exacte varie selon la langue et le format (code vs prose), mais l’idée reste : on entre dans le territoire des « bibliothèques entières de documents », pas « quelques PDF ».
The Verge a noté qu’Opus 4.6 inclut une fenêtre de contexte d’un million de tokens en bêta qui peut permettre de travailler sur plusieurs documents. Cela importe parce que de nombreux flux de travail réels , due diligence, réponse aux incidents, revue de contrats, audits de conception , sont intrinsèquement multisources, et la friction due au fractionnement constant peut faire la différence entre un outil que l’on essaie et un outil que l’on adopte.
De Sonnet 4 à Opus 4.6 : pourquoi ce jalon est important
Anthropic a introduit la fenêtre de contexte d’un million de tokens pour Claude Sonnet 4 plus tôt (12 août 2025), la présentant comme « une augmentation de 5x » et la positionnant pour le traitement d’ensembles de code complets et de jeux de documents étendus. Cette version antérieure a établi le précédent technique et créé des attentes utilisateur sur ce que le « contexte long » pouvait débloquer.
Opus 4.6 est important parce qu’Opus est la classe haut de gamme d’Anthropic où les utilisateurs attendent souvent la capacité maximale pour un travail complexe et à enjeux élevés. Le message d’Anthropic du 5 février 2026 met l’accent sur le fait que le contexte 1M est « une première pour nos modèles de classe Opus », ce qui signale que les charges de travail à long contexte ne nécessitent plus de basculer vers une autre famille de modèles pour certaines tâches.
SiliconANGLE l’a présenté de façon similaire, rapportant qu’Opus 4.6 prendra en charge 1 million de tokens de contexte (bêta) sur la Claude Developer Platform au lancement, et soulignant que c’est le premier modèle Opus à obtenir un contexte long. Pour les responsables ingénierie, cette combinaison , modèle haut de gamme plus contexte haut de gamme , réduit la nécessité de sacrifier la profondeur du raisonnement au profit de l’étendue du matériel.
Accès, plateformes et réalité du contrôle d’accès
Tous ne bénéficient pas automatiquement de la fenêtre complète de 1M de tokens dès le premier jour. Les Claude Docs sur les fenêtres de contexte indiquent que la disponibilité du contexte d’un million de tokens nécessite le niveau d’utilisation 4 ou des limites de débit personnalisées, une forme explicite de contrôle d’accès API qui reflète le coût d’infrastructure plus élevé et le profil de demande des prompts très volumineux.
Du point de vue du déploiement, les Claude Docs listent également la disponibilité du contexte long comme « actuellement disponible sur la Claude API, Amazon Bedrock et Google Cloud’s Vertex AI ». C’est important pour les entreprises qui standardisent sur une voie d’approvisionnement cloud spécifique, car « pris en charge par le modèle » et « disponible sur notre plateforme » sont souvent des jalons différents.
La conclusion pratique : les équipes produit doivent considérer le contexte 1M comme une capacité à vérifier par environnement (API directe vs Bedrock vs Vertex), par niveau de compte et par configuration de limites de débit. Planifier cela tôt évite un piège de déploiement courant : construire un flux de travail autour de 1M de tokens et découvrir que le compte de production est plafonné plus bas.
Tarification et performance : les compromis du contexte long
Opus 4.6 introduit des détails de tarification explicitement liés au contexte long. Anthropic note : « Une tarification premium s’applique aux prompts dépassant 200k tokens (10 $ / 37,50 $ par million de tokens d’entrée/sortie). » En d’autres termes, le plafond à un million de tokens est réel, mais l’économie change une fois qu’on franchit un seuil.
Les Claude Docs précisent encore la règle : les requêtes de plus de 200K tokens sont facturées à des tarifs premium, appliquant des multiplicateurs exacts de 2x pour l’entrée et 1,5x pour la sortie. Pour les architectes, cela suggère un nouvel état d’esprit d’optimisation : utiliser un contexte large lorsque cela apporte une valeur mesurable (moins d’appels, moins d’erreurs de récupération, meilleure synthèse), et non simplement parce que c’est disponible.
Parallèlement, Opus 4.6 prend en charge jusqu’à 128K tokens de sortie, ce qui devient particulièrement utile lorsqu’il est associé à de longs prompts. Si vous demandez au modèle de produire un rapport d’audit détaillé, un plan de migration structuré ou une revue de sécurité longue qui référence de nombreuses sources, l’espace de sortie peut être aussi important que l’espace d’entrée, sinon la réponse est tronquée au moment où elle devient la plus utile.
Compactage du contexte : rendre les flux de travail à million de tokens durables
Une des additions moins tape-à-l’œil mais très pratiques dans Opus 4.6 est le « compactage du contexte ». Anthropic le décrit comme un moyen de résumer ou de remplacer l’ancien contexte près d’un seuil pour prolonger la durée d’une tâche, gérant essentiellement la mémoire de la conversation afin que le travail puisse continuer sans redémarrer constamment.
Cette fonctionnalité répond à un problème courant des projets de longue durée : même avec de très grandes fenêtres, la collaboration itérative peut alourdir le contexte avec des brouillons intermédiaires, des instructions répétées et des impasses précédentes. Le compactage peut préserver les décisions et références essentielles tout en supprimant le texte redondant, en maintenant l’ensemble de travail plus petit et plus pertinent.
Pour les équipes construisant des outils sur Claude, le compactage suggère également un modèle d’utilisation plus ergonomique pour les tâches longues : permettre aux utilisateurs d’alimenter continuellement du matériel, compresser périodiquement l’état et continuer, plutôt que d’imposer des « réinitialisations de session » qui brisent la continuité. Combiné à 128K de sortie, il prend en charge des flux de travail qui ressemblent davantage à une session d’analyse soutenue qu’à une série d’appels Q&A déconnectés.
Pourquoi 1M de contexte est important pour la cybersécurité et les grands codebases
Axios a décrit Opus 4.6 comme exceptionnellement performant dans les travaux de cybersécurité et a rapporté y avoir trouvé « plus de 500 » vulnérabilités à haute gravité jusque-là inconnues. Indépendamment de la configuration exacte des tests derrière cette affirmation, le lien avec le contexte long est intuitif : les revues de sécurité réelles exigent souvent de lire de larges sections d’une base de code, de tracer des flux à travers des fichiers et de corréler des motifs avec la documentation et la configuration.
Avec un million de tokens, il devient plus faisable d’inclure de larges portions de dépôts, des manifests de dépendances, des scripts de build et des politiques de sécurité dans une seule passe analytique. Cela peut réduire la probabilité qu’un indice critique se trouve « juste en dehors de la fenêtre », et cela peut diminuer la logique fragile consistant à décider quels fichiers inclure dans chaque fragment.
Il est important de noter que le contexte long n’élimine pas le besoin d’un bon processus de sécurité, il l’augmente. Le schéma le plus efficace est d’utiliser la grande fenêtre pour ancrer le modèle sur des sources primaires (code, logs, normes), puis de demander des livrables précis et testables : fonctions vulnérables, scénarios d’exploitation, correctifs en diff et étapes de vérification.
Travail de connaissance en entreprise : synthèse multi-documents à grande échelle
La couverture du Financial Times de l’annonce d’Opus 4.6 l’a encadrée en termes de positionnement pour l’entreprise et le travail de connaissance, incluant la capacité à traiter de plus grandes quantités de données. C’est là que un million de tokens peut sembler moins être une métrique technique et davantage un changement opérationnel : moins de transferts entre outils, moins de résumés manuels et un chemin plus rapide des « entrées » à la « décision ».
Considérez les flux de travail d’entreprise typiques : une revue M&A couvrant contrats, courriels, notes sur les risques et états financiers ; une réponse réglementaire nécessitant des citations à travers des politiques et des preuves ; ou un exercice de stratégie produit combinant recherche, métriques internes et retours clients. Une large fenêtre de contexte peut prendre en charge un espace de travail unique et traçable où le modèle peut référencer de nombreux documents sans les recharger constamment.
Cela dit, les meilleures implémentations en entreprise resteront sélectives. La tarification premium au-delà de 200K tokens et le contrôle d’accès (niveau 4 ou limites personnalisées) poussent les équipes vers des conceptions disciplinées : pré-filtrer les documents, utiliser le contexte long pour la passe de « synthèse finale » et appliquer le compactage pour maintenir la session légère tout en conservant la traçabilité.
Claude Opus 4.6 et sa fenêtre de contexte d’un million de tokens (bêta) marquent un changement notable : la capacité de contexte long a intégré la classe Opus d’Anthropic, soutenue par des déclarations officielles et reprise par des médias comme The Verge et SiliconANGLE. Combinée à jusqu’à 128K de tokens de sortie, elle permet des flux de travail où à la fois les preuves et le livrable peuvent être volumineux, détaillés et continus.
L’opportunité est réelle, mais les contraintes le sont aussi. L’accès peut nécessiter le niveau d’utilisation 4 ou des limites de débit personnalisées, et l’économie change après 200K tokens via une tarification premium (2x pour l’entrée, 1,5x pour la sortie). Les équipes qui en tireront le plus de valeur traiteront un million de tokens comme une ressource stratégique : l’utiliser lorsque l’étendue du contexte améliore matériellement la précision, tirer parti du compactage pour rester efficaces et concevoir des processus qui demeurent vérifiables pour la sécurité et la prise de décision en entreprise.