
Por que o governo dos EUA suspendeu o modelo de IA Claude mais recente da Anthropic
Why the US government shut down Anthropic’s latest Claude AI model
An “export control directive” for Anthropic’s Fable and Mythos models highlights the chaotic, fast-changing state of AI regulation.
Uma “diretiva de controle de exportação” para os modelos Fable e Mythos da Anthropic destaca o estado caótico e em rápida mudança da regulamentação de IA.
On June 12, artificial intelligence (AI) lab Anthropic suspended access to its latest Claude models, Fable 5 and Mythos 5, which had been released three days earlier.
Em 12 de junho, o laboratório de inteligência artificial (IA) Anthropic suspendeu o acesso aos seus modelos mais recentes do Claude, Fable 5 e Mythos 5, que haviam sido lançados três dias antes.
The move came in response to an “export control directive” from the US government prohibiting use of the models by anyone who is not a US national.
A medida veio em resposta a uma “diretiva de controle de exportação” do governo dos EUA, proibindo o uso dos modelos por qualquer pessoa que não seja cidadã americana.
Mythos is Anthropic’s most powerful, or “frontier”, model. When first announcing the model in April, the company said it was too good at hacking to release immediately. Instead, Mythos was made available to a handful of organisations (mostly US tech corporations) to use to patch weaknesses in essential digital systems.
Mythos é o modelo mais poderoso da Anthropic, ou de “fronteira”. Ao anunciar o modelo pela primeira vez em abril, a empresa disse que ele era muito bom em fazer hacks para ser lançado imediatamente. Em vez disso, o Mythos foi disponibilizado para um punhado de organizações (principalmente corporações de tecnologia dos EUA) para usar no reparo de fraquezas em sistemas digitais essenciais.
Fable is the same basic model, but with added safeguards meant to stop it being used for cybersecurity purposes. This is what was released to the public last week – and almost immediately shut down.
Fable é o mesmo modelo básico, mas com salvaguardas adicionais destinadas a impedir seu uso para fins de cibersegurança. Foi isso que foi lançado ao público na semana passada – e quase imediatamente desativado.
Anthropic and the Trump administration at loggerheads
Anthropic e a administração Trump em atrito
Since early 2025, Anthropic and the Trump administration have been in escalating conflict. The administration has accused Anthropic of making “woke AI” and called chief executive Dario Amodei an “ideological lunatic”.
Desde o início de 2025, Anthropic e a administração Trump estão em um conflito crescente. A administração acusou a Anthropic de criar “IA woke” e chamou o diretor executivo Dario Amodei de “lunático ideológico.”
Early disagreements concerned AI regulation and semiconductor export policy. The dispute sharpened when Anthropic declined to let the Pentagon use its models for domestic surveillance and fully autonomous weapons systems.
Os primeiros desacordos diziam respeito à regulamentação da IA e à política de exportação de semicondutores. A disputa se acirrou quando a Anthropic recusou-se a permitir que o Pentágono usasse seus modelos para vigilância doméstica e sistemas de armas totalmente autônomos.
The Department of Defense responded by threatening to designate Anthropic a “supply chain risk”, a classification that would have required military contractors to sever ties.
O Departamento de Defesa respondeu ameaçando designar a Anthropic como um “risco na cadeia de suprimentos”, uma classificação que teria exigido que contratados militares rompessem laços.
Jailbreaks
Quebras de Segurança
The US government has not yet publicly stated the reason for last week’s directive, but Anthropic it says it believes the government became aware of a jailbreak: a method for circumventing the safeguards in Fable that prevent using its most powerful features for nefarious purposes.
O governo dos EUA ainda não divulgou publicamente o motivo da diretiva da semana passada, mas a Anthropic afirma que acredita que o governo tomou conhecimento de um jailbreak: um método para contornar as salvaguardas do Fable que impedem o uso de seus recursos mais poderosos para fins nefastos.
These safeguards classify user requests as safe or unsafe before passing them to the AI model. When triggered, the safeguards redirect the request to a less powerful model.
Essas salvaguardas classificam os pedidos dos usuários como seguros ou inseguros antes de passá-los ao modelo de IA. Quando acionadas, as salvaguardas redirecionam o pedido para um modelo menos potente.
The government’s concern, according to Anthropic, was that the safeguards could be bypassed to extract information useful for cyberattacks.
A preocupação do governo, segundo a Anthropic, era que as salvaguardas pudessem ser contornadas para extrair informações úteis para ataques cibernéticos.
Guardrails for large language models aren’t bulletproof. They mostly depend on the model’s own capacity to interpret the user’s intentions in making a request.
Os mecanismos de proteção (guardrails) para modelos de linguagem grandes não são infalíveis. Eles dependem principalmente da capacidade própria do modelo de interpretar as intenções do usuário ao fazer um pedido.
Beyond the inherent difficulty of this task, a large online community (which my colleagues and I call the Undersphere) is working hard to circumvent AI guardrails. Anthropic acknowledges that “perfect jailbreak resistance is not achievable for any current model provider”.
Além da dificuldade inerente a essa tarefa, uma grande comunidade online (que meus colegas e eu chamamos de Undersphere) está trabalhando arduamente para contornar os mecanismos de proteção de IA. A Anthropic reconhece que “resistência perfeita a jailbreaks não é alcançável por nenhum fornecedor de modelo atual”.
Anthropic says the research behind the government directive appears to have been produced by engineers at Amazon, which is both a rival to Anthropic and a significant investor.
A Anthropic diz que a pesquisa por trás da diretiva governamental parece ter sido produzida por engenheiros da Amazon, empresa que é tanto rival quanto investidora significativa para a Anthropic.
But this was not the only relevant jailbreak. Within 48 hours of Fable’s release, a researcher using the pseudonym “Pliny the Liberator” published what they identified as Fable 5’s full system prompt to X and GitHub repository.
Mas este não foi o único jailbreak relevante. Dentro de 48 horas após o lançamento do Fable, um pesquisador usando o pseudônimo “Pliny the Liberator” publicou o que identificou como o prompt completo do sistema do Fable 5 no X e em um repositório do GitHub.
The system prompt is a hidden set of instructions that helps determine an AI model’s behaviour. It’s unclear exactly how knowledge of Fable’s system prompt could be used in practice, but it has drawn attention in the Undersphere.
O prompt do sistema é um conjunto oculto de instruções que ajuda a determinar o comportamento de um modelo de IA. Não está claro exatamente como o conhecimento do prompt do sistema do Fable poderia ser usado na prática, mas chamou muita atenção na Undersphere.
A surprise – and an ongoing mystery
Uma surpresa – e um mistério em curso
The deepest problem of making large language models such as Fable secure is that we don’t fully know how they work. According to Oxford University economist and machine learning expert Maximilian Kasy, they work much better than they “should”.
O problema mais profundo de tornar modelos de linguagem grandes como o Fable seguros é que não sabemos totalmente como eles funcionam. Segundo Maximilian Kasy, economista da Universidade de Oxford e especialista em aprendizado de máquina, eles funcionam muito melhor do que “deveriam.”
Large language models have billions of internal parameters and are trained on unimaginably vast piles of data using machine learning methods. According to Kasy, we would expect such systems to be “overfitted”: good at reproducing patterns in their training data, but bad at generalising to new situations.
Modelos de linguagem grandes têm bilhões de parâmetros internos e são treinados em pilhas de dados inimaginavelmente vastas usando métodos de aprendizado de máquina. Segundo Kasy, esperaríamos que tais sistemas estivessem “superajustados” (overfitted): bons em reproduzir padrões em seus dados de treinamento, mas ruins em generalizar para novas situações.
However, modern systems such as Claude and ChatGPT do seem to be able to generalise. Kasy likens modern AI development to alchemy: successful through trial and error, not yet grounded in systematic theory.
No entanto, sistemas modernos como Claude e ChatGPT parecem ser capazes de generalizar. Kasy compara o desenvolvimento moderno de IA à alquimia: bem-sucedido através de tentativa e erro, ainda não fundamentado em teoria sistemática.
As a result, the behaviour of AI models is partly opaque even to their builders.
Como resultado, o comportamento dos modelos de IA é parcialmente opaco até mesmo para seus criadores.
Hard to regulate
Difícil de regulamentar
The opacity of the technology is one key reason it’s so hard to regulate. Governments lack independent access to the data, infrastructure and expertise they would need to evaluate proprietary frontier models.
A opacidade da tecnologia é um dos principais motivos pelos quais é tão difícil regular. Os governos não têm acesso independente aos dados, à infraestrutura e à expertise que seriam necessários para avaliar modelos fronteiriços proprietários.
The US administration’s recent executive order on AI security, published two weeks ago, reflects this realisation. As the administration has realised the power of frontier AI models, it has moved from an initial hands-off posture to asking developers to share their models for review before release.
A recente ordem executiva da administração dos EUA sobre segurança de IA, publicada há duas semanas, reflete essa percepção. À medida que a administração percebeu o poder dos modelos avançados de IA, ela passou de uma postura inicial de “mãos livres” para pedir aos desenvolvedores que compartilhem seus modelos para revisão antes do lançamento.
That demand is an implicit admission that the administration does not trust the companies to evaluate, fully and comprehensively, what their own models can do and how they might be misused. The public sees even less, and the consequence is measurable: a survey taken across 25 countries last year found people are, on balance, more than twice as concerned about AI as they are excited about it.
Essa demanda é uma admissão implícita de que a administração não confia nas empresas para avaliar, de forma completa e abrangente, o que seus próprios modelos podem fazer e como eles poderiam ser mal utilizados. O público vê ainda menos, e a consequência é mensurável: uma pesquisa realizada em 25 países no ano passado descobriu que as pessoas estão, no geral, mais do que duas vezes preocupadas com IA do que entusiasmadas por ela.
The future of AI safety
O futuro da segurança da IA
AI is a hugely hyped technology. But there is no doubt it is also extremely powerful and unpredictable. Understandably, this combination is very dangerous.
A IA é uma tecnologia muito divulgada. Mas não há dúvida de que ela também é extremamente poderosa e imprevisível. Compreensivelmente, essa combinação é muito perigosa.
We cannot rely on regulations, as technology will develop more quickly than they can adapt. Nor can we rely on guardrails, as they will be bypassed.
Não podemos contar apenas com regulamentações, pois a tecnologia se desenvolverá mais rapidamente do que elas podem se adaptar. Nem podemos contar com mecanismos de controle, pois eles serão contornados.
We need a governance framework built for that eventuality: one that can predict and address the consequences of failure.
Precisamos de uma estrutura de governança construída para essa eventualidade: uma que possa prever e abordar as consequências do fracasso.
Such a framework must be global, participatory, and founded on reciprocal trust. These are things the current US administration has shown little capacity to generate.
Tal estrutura deve ser global, participativa e baseada na confiança mútua. São coisas que a atual administração dos EUA demonstrou ter pouca capacidade de gerar.
Francesco Bailo has received funding from Meta (2019) and from Australia’s Department of Defence (2023) .
Francesco Bailo recebeu financiamento da Meta (2019) e do Departamento de Defesa da Austrália (2023) .
Read more
-

Teorias da conspiração: os 300.000 neozelandeses realmente acreditam que o Canadá está construindo um exército de super-guaxinins mutantes?
Conspiracy theories: do 300,000 Kiwis really believe Canada is building an army of mutant super-raccoons?
-

Há 40 anos após o desastre, por que há raposas, ursos e bisões novamente em Chernobyl
40 years on from the disaster, why there are foxes, bears and bison again around Chernobyl