Why the US government shut down Anthropic’s latest Claude AI model
,

Pourquoi le gouvernement américain a arrêté le dernier modèle d’IA Claude d’Anthropic

Why the US government shut down Anthropic’s latest Claude AI model

Francesco Bailo, Senior Lecturer in Data Analytics in the Social Sciences, Deputy Director of the Centre for AI, Trust and Governance, University of Sydney

An “export control directive” for Anthropic’s Fable and Mythos models highlights the chaotic, fast-changing state of AI regulation.

Une « directive de contrôle des exportations » pour les modèles Fable et Mythos d’Anthropic met en lumière l’état chaotique et en rapide évolution de la réglementation de l’IA.

On June 12, artificial intelligence (AI) lab Anthropic suspended access to its latest Claude models, Fable 5 and Mythos 5, which had been released three days earlier.

Le 12 juin, le laboratoire d’intelligence artificielle (IA) Anthropic a suspendu l’accès à ses derniers modèles Claude, Fable 5 et Mythos 5, qui avaient été lancés trois jours plus tôt.

The move came in response to an “export control directive” from the US government prohibiting use of the models by anyone who is not a US national.

Cette décision est intervenue en réponse à une « directive de contrôle des exportations » du gouvernement américain, interdisant l’utilisation des modèles par toute personne qui n’est pas un ressortissant américain.

Mythos is Anthropic’s most powerful, or “frontier”, model. When first announcing the model in April, the company said it was too good at hacking to release immediately. Instead, Mythos was made available to a handful of organisations (mostly US tech corporations) to use to patch weaknesses in essential digital systems.

Mythos est le modèle le plus puissant, ou « de pointe », d’Anthropic. Lorsqu’elle a annoncé ce modèle pour la première fois en avril, l’entreprise avait déclaré qu’il était trop performant en matière de piratage pour être lancé immédiatement. Au lieu de cela, Mythos a été mis à la disposition d’une poignée d’organisations (principalement des entreprises technologiques américaines) afin qu’elles puissent corriger les faiblesses des systèmes numériques essentiels.

Fable is the same basic model, but with added safeguards meant to stop it being used for cybersecurity purposes. This is what was released to the public last week – and almost immediately shut down.

Fable est le même modèle de base, mais avec des garde-fous supplémentaires destinés à empêcher son utilisation à des fins de cybersécurité. C’est ce qui a été lancé au public la semaine dernière – et qui a été presque immédiatement mis hors service.

Anthropic and the Trump administration at loggerheads

Anthropic et l’administration Trump en conflit

Since early 2025, Anthropic and the Trump administration have been in escalating conflict. The administration has accused Anthropic of making “woke AI” and called chief executive Dario Amodei an “ideological lunatic”.

Depuis début 2025, Anthropic et l’administration Trump sont en conflit croissant. L’administration a accusé Anthropic de créer une « IA woke » et a qualifié le directeur général Dario Amodei de « fou idéologique ».

Early disagreements concerned AI regulation and semiconductor export policy. The dispute sharpened when Anthropic declined to let the Pentagon use its models for domestic surveillance and fully autonomous weapons systems.

Les premiers désaccords concernaient la réglementation de l’IA et la politique d’exportation de semi-conducteurs. Le différend s’est intensifié lorsque Anthropic a refusé de laisser le Pentagone utiliser ses modèles pour la surveillance intérieure et les systèmes d’armes entièrement autonomes.

The Department of Defense responded by threatening to designate Anthropic a “supply chain risk”, a classification that would have required military contractors to sever ties.

Le Département de la Défense a réagi en menaçant de désigner Anthropic comme un « risque pour la chaîne d’approvisionnement », une classification qui aurait obligé les sous-traitants militaires à rompre leurs liens.

Jailbreaks

Évasions

The US government has not yet publicly stated the reason for last week’s directive, but Anthropic it says it believes the government became aware of a jailbreak: a method for circumventing the safeguards in Fable that prevent using its most powerful features for nefarious purposes.

Le gouvernement américain n’a pas encore rendu publique la raison de la directive de la semaine dernière, mais Anthropic affirme que le gouvernement aurait pris connaissance d’une évasion (jailbreak): une méthode pour contourner les garde-fous de Fable qui empêchent l’utilisation de ses fonctionnalités les plus puissantes à des fins malveillantes.

These safeguards classify user requests as safe or unsafe before passing them to the AI model. When triggered, the safeguards redirect the request to a less powerful model.

Ces garde-fous classifient les requêtes des utilisateurs comme sûres ou non sûres avant de les transmettre au modèle d’IA. Lorsqu’ils sont déclenchés, ces garde-fous redirigent la requête vers un modèle moins puissant.

The government’s concern, according to Anthropic, was that the safeguards could be bypassed to extract information useful for cyberattacks.

Selon Anthropic, la préoccupation du gouvernement était que ces garde-fous puissent être contournés pour extraire des informations utiles à des cyberattaques.

Guardrails for large language models aren’t bulletproof. They mostly depend on the model’s own capacity to interpret the user’s intentions in making a request.

Les garde-fous des grands modèles de langage ne sont pas infaillibles. Ils dépendent principalement de la capacité propre du modèle à interpréter les intentions de l’utilisateur lors de la formulation d’une requête.

Beyond the inherent difficulty of this task, a large online community (which my colleagues and I call the Undersphere) is working hard to circumvent AI guardrails. Anthropic acknowledges that “perfect jailbreak resistance is not achievable for any current model provider”.

Au-delà de la difficulté inhérente à cette tâche, une grande communauté en ligne (que mes collègues et moi appelons l’Undersphere) travaille dur pour contourner les garde-fous de l’IA. Anthropic reconnaît que « une résistance parfaite aux évasions n’est pas réalisable pour aucun fournisseur de modèle actuel ».

Anthropic says the research behind the government directive appears to have been produced by engineers at Amazon, which is both a rival to Anthropic and a significant investor.

Anthropic affirme que la recherche derrière la directive gouvernementale semble avoir été produite par des ingénieurs d’Amazon, qui est à la fois un rival d’Anthropic et un investisseur important.

But this was not the only relevant jailbreak. Within 48 hours of Fable’s release, a researcher using the pseudonym “Pliny the Liberator” published what they identified as Fable 5’s full system prompt to X and GitHub repository.

Mais ce ne fut pas le seul jailbreak pertinent. Dans les 48 heures suivant la sortie de Fable, un chercheur utilisant le pseudonyme « Pliny the Liberator » a publié ce qu’il identifiait comme l’invite système complète de Fable 5 sur X et dans un dépôt GitHub.

The system prompt is a hidden set of instructions that helps determine an AI model’s behaviour. It’s unclear exactly how knowledge of Fable’s system prompt could be used in practice, but it has drawn attention in the Undersphere.

L’invite système est un ensemble caché d’instructions qui aide à déterminer le comportement d’un modèle d’IA. Il n’est pas clair exactement comment la connaissance de l’invite système de Fable pourrait être utilisée en pratique, mais cela a attiré l’attention au sein de l’Undersphere.

A surprise – and an ongoing mystery

Une surprise – et un mystère persistant

The deepest problem of making large language models such as Fable secure is that we don’t fully know how they work. According to Oxford University economist and machine learning expert Maximilian Kasy, they work much better than they “should”.

Le problème le plus profond pour rendre sécurisés les grands modèles de langage tels que Fable est que nous ne savons pas entièrement comment ils fonctionnent. Selon Maximilian Kasy, économiste de l’Université d’Oxford et expert en apprentissage automatique, ils fonctionnent bien mieux qu’ils ne « devraient ».

Large language models have billions of internal parameters and are trained on unimaginably vast piles of data using machine learning methods. According to Kasy, we would expect such systems to be “overfitted”: good at reproducing patterns in their training data, but bad at generalising to new situations.

Les grands modèles de langage possèdent des milliards de paramètres internes et sont entraînés sur des piles de données inimaginablement vastes à l’aide de méthodes d’apprentissage automatique. Selon Kasy, nous nous attendrions à ce que de tels systèmes soient « surajustés » (overfitted): bons pour reproduire les modèles de leurs données d’entraînement, mais mauvais pour généraliser à de nouvelles situations.

However, modern systems such as Claude and ChatGPT do seem to be able to generalise. Kasy likens modern AI development to alchemy: successful through trial and error, not yet grounded in systematic theory.

Cependant, des systèmes modernes tels que Claude et ChatGPT semblent pouvoir généraliser. Kasy compare le développement de l’IA moderne à l’alchimie: un succès obtenu par essais et erreurs, pas encore fondé sur une théorie systématique.

As a result, the behaviour of AI models is partly opaque even to their builders.

Par conséquent, le comportement des modèles d’IA est en partie opaque même pour leurs créateurs.

Hard to regulate

Difficile à réglementer

The opacity of the technology is one key reason it’s so hard to regulate. Governments lack independent access to the data, infrastructure and expertise they would need to evaluate proprietary frontier models.

L’opacité de la technologie est une raison clé pour laquelle il est si difficile de la réglementer. Les gouvernements manquent d’accès indépendant aux données, à l’infrastructure et à l’expertise dont ils auraient besoin pour évaluer les modèles frontières propriétaires.

The US administration’s recent executive order on AI security, published two weeks ago, reflects this realisation. As the administration has realised the power of frontier AI models, it has moved from an initial hands-off posture to asking developers to share their models for review before release.

Le récent décret exécutif de l’administration américaine sur la sécurité de l’IA, publié il y a deux semaines, reflète cette prise de conscience. Alors que l’administration a réalisé le pouvoir des modèles d’IA frontières, elle est passée d’une posture initiale de non-intervention à demander aux développeurs de partager leurs modèles pour examen avant leur publication.

That demand is an implicit admission that the administration does not trust the companies to evaluate, fully and comprehensively, what their own models can do and how they might be misused. The public sees even less, and the consequence is measurable: a survey taken across 25 countries last year found people are, on balance, more than twice as concerned about AI as they are excited about it.

Cette demande est une admission implicite selon laquelle l’administration ne fait pas confiance aux entreprises pour évaluer, pleinement et de manière exhaustive, ce que leurs propres modèles peuvent faire et comment ils pourraient être détournés. Le public voit encore moins, et la conséquence est mesurable: une enquête menée dans 25 pays l’année dernière a révélé que les gens sont, en général, plus préoccupés par l’IA qu’ils ne le sont enthousiastes.

The future of AI safety

La sécurité de l’IA

AI is a hugely hyped technology. But there is no doubt it is also extremely powerful and unpredictable. Understandably, this combination is very dangerous.

L’intelligence artificielle est une technologie très médiatisée. Mais il ne fait aucun doute qu’elle est également extrêmement puissante et imprévisible. Compréhensiblement, cette combinaison est très dangereuse.

We cannot rely on regulations, as technology will develop more quickly than they can adapt. Nor can we rely on guardrails, as they will be bypassed.

Nous ne pouvons pas nous fier aux réglementations, car la technologie se développera plus rapidement qu’elles ne pourront s’adapter. Nous ne pouvons pas non plus compter sur des garde-fous, car ils seront contournés.

We need a governance framework built for that eventuality: one that can predict and address the consequences of failure.

Nous avons besoin d’un cadre de gouvernance construit pour cette éventualité: un cadre capable de prédire et de gérer les conséquences d’une défaillance.

Such a framework must be global, participatory, and founded on reciprocal trust. These are things the current US administration has shown little capacity to generate.

Un tel cadre doit être mondial, participatif et fondé sur une confiance réciproque. Ce sont des choses que l’administration américaine actuelle a montré peu de capacité à générer.

Francesco Bailo has received funding from Meta (2019) and from Australia’s Department of Defence (2023) .

Francesco Bailo a reçu des financements de Meta (2019) et du Département de la Défense d’Australie (2023) .