
¿Por qué el gobierno de EE. UU. desactivó el último modelo de IA Claude de Anthropic?
Why the US government shut down Anthropic’s latest Claude AI model
An “export control directive” for Anthropic’s Fable and Mythos models highlights the chaotic, fast-changing state of AI regulation.
Una «directiva de control de exportaciones» para los modelos Fable y Mythos de Anthropic subraya el estado caótico y en rápida evolución de la regulación de IA.
On June 12, artificial intelligence (AI) lab Anthropic suspended access to its latest Claude models, Fable 5 and Mythos 5, which had been released three days earlier.
El 12 de junio, el laboratorio de inteligencia artificial (IA) Anthropic suspendió el acceso a sus últimos modelos Claude, Fable 5 y Mythos 5, que habían sido lanzados tres días antes.
The move came in response to an “export control directive” from the US government prohibiting use of the models by anyone who is not a US national.
La medida se produjo en respuesta a una “directiva de control de exportaciones” del gobierno estadounidense que prohíbe el uso de los modelos por cualquier persona que no sea nacional de EE. UU.
Mythos is Anthropic’s most powerful, or “frontier”, model. When first announcing the model in April, the company said it was too good at hacking to release immediately. Instead, Mythos was made available to a handful of organisations (mostly US tech corporations) to use to patch weaknesses in essential digital systems.
Mythos es el modelo más potente, o “de frontera”, de Anthropic. Cuando anunció el modelo por primera vez en abril, la compañía dijo que era demasiado bueno para hacer hackeos para ser lanzado inmediatamente. En su lugar, Mythos fue puesto a disposición de un puñado de organizaciones (principalmente corporaciones tecnológicas estadounidenses) para que lo usaran para parchear debilidades en sistemas digitales esenciales.
Fable is the same basic model, but with added safeguards meant to stop it being used for cybersecurity purposes. This is what was released to the public last week – and almost immediately shut down.
Fable es el mismo modelo básico, pero con salvaguardias adicionales destinadas a evitar que se utilice para fines de ciberseguridad. Esto fue lo que se lanzó al público la semana pasada y que casi inmediatamente fue desactivado.
Anthropic and the Trump administration at loggerheads
Anthropic y la administración Trump en conflicto
Since early 2025, Anthropic and the Trump administration have been in escalating conflict. The administration has accused Anthropic of making “woke AI” and called chief executive Dario Amodei an “ideological lunatic”.
Desde principios de 2025, Anthropic y la administración Trump han estado en un conflicto creciente. La administración ha acusado a Anthropic de crear “IA woke” y ha llamado al director ejecutivo Dario Amodei un “lunático ideológico”.
Early disagreements concerned AI regulation and semiconductor export policy. The dispute sharpened when Anthropic declined to let the Pentagon use its models for domestic surveillance and fully autonomous weapons systems.
Los desacuerdos iniciales se centraron en la regulación de la IA y la política de exportación de semiconductores. La disputa se intensificó cuando Anthropic se negó a permitir que el Pentágono utilizara sus modelos para vigilancia doméstica y sistemas de armas totalmente autónomos.
The Department of Defense responded by threatening to designate Anthropic a “supply chain risk”, a classification that would have required military contractors to sever ties.
El Departamento de Defensa respondió amenazando con designar a Anthropic como un “riesgo para la cadena de suministro”, una clasificación que habría obligado a los contratistas militares a cortar lazos.
Jailbreaks
Escapes de Seguridad
The US government has not yet publicly stated the reason for last week’s directive, but Anthropic it says it believes the government became aware of a jailbreak: a method for circumventing the safeguards in Fable that prevent using its most powerful features for nefarious purposes.
El gobierno estadounidense aún no ha declarado públicamente la razón de la directiva de la semana pasada, pero Anthropic afirma que cree que el gobierno tuvo conocimiento de un escape de seguridad: un método para eludir las salvaguardias de Fable que impiden usar sus funciones más potentes con fines nefastos.
These safeguards classify user requests as safe or unsafe before passing them to the AI model. When triggered, the safeguards redirect the request to a less powerful model.
Estas salvaguardias clasifican las solicitudes de los usuarios como seguras o inseguras antes de pasarlas al modelo de IA. Cuando se activan, las salvaguardias redirigen la solicitud a un modelo menos potente.
The government’s concern, according to Anthropic, was that the safeguards could be bypassed to extract information useful for cyberattacks.
La preocupación del gobierno, según Anthropic, era que las salvaguardias pudieran ser eludidas para extraer información útil para ciberataques.
Guardrails for large language models aren’t bulletproof. They mostly depend on the model’s own capacity to interpret the user’s intentions in making a request.
Las barreras de seguridad (guardrails) para los modelos de lenguaje grandes no son inquebrantables. Dependen principalmente de la capacidad propia del modelo para interpretar las intenciones del usuario al hacer una solicitud.
Beyond the inherent difficulty of this task, a large online community (which my colleagues and I call the Undersphere) is working hard to circumvent AI guardrails. Anthropic acknowledges that “perfect jailbreak resistance is not achievable for any current model provider”.
Más allá de la dificultad inherente de esta tarea, una gran comunidad en línea (que mis colegas y yo llamamos Undersphere) está trabajando arduamente para eludir las barreras de seguridad de la IA. Anthropic reconoce que «la resistencia perfecta a los escapes de seguridad no es alcanzable para ningún proveedor de modelos actual.»
Anthropic says the research behind the government directive appears to have been produced by engineers at Amazon, which is both a rival to Anthropic and a significant investor.
Anthropic dice que la investigación detrás de la directiva gubernamental parece haber sido producida por ingenieros de Amazon, empresa que es tanto un rival como un importante inversor para Anthropic.
But this was not the only relevant jailbreak. Within 48 hours of Fable’s release, a researcher using the pseudonym “Pliny the Liberator” published what they identified as Fable 5’s full system prompt to X and GitHub repository.
Pero este no fue el único escape relevante. Dentro de las 48 horas posteriores al lanzamiento de Fable, un investigador que utilizó el seudónimo «Plinio el Libertador» publicó lo que identificó como el prompt del sistema completo de Fable 5 en X y en un repositorio de GitHub.
The system prompt is a hidden set of instructions that helps determine an AI model’s behaviour. It’s unclear exactly how knowledge of Fable’s system prompt could be used in practice, but it has drawn attention in the Undersphere.
El prompt del sistema es un conjunto oculto de instrucciones que ayuda a determinar el comportamiento de un modelo de IA. No está claro exactamente cómo podría utilizarse en la práctica el conocimiento del prompt del sistema de Fable, pero ha llamado la atención en Undersphere.
A surprise – and an ongoing mystery
Una sorpresa y un misterio en curso
The deepest problem of making large language models such as Fable secure is that we don’t fully know how they work. According to Oxford University economist and machine learning expert Maximilian Kasy, they work much better than they “should”.
El problema más profundo de hacer seguros modelos de lenguaje grandes como Fable es que no sabemos cómo funcionan completamente. Según el economista y experto en aprendizaje automático de la Universidad de Oxford, Maximilian Kasy, funcionan mucho mejor de lo que deberían.
Large language models have billions of internal parameters and are trained on unimaginably vast piles of data using machine learning methods. According to Kasy, we would expect such systems to be “overfitted”: good at reproducing patterns in their training data, but bad at generalising to new situations.
Los modelos de lenguaje grandes tienen miles de millones de parámetros internos y se entrenan con montones de datos inimaginablemente vastos utilizando métodos de aprendizaje automático. Según Kasy, esperaríamos que tales sistemas estuvieran «sobreajustados» (overfitted): buenos reproduciendo patrones en sus datos de entrenamiento, pero malos generalizando a nuevas situaciones.
However, modern systems such as Claude and ChatGPT do seem to be able to generalise. Kasy likens modern AI development to alchemy: successful through trial and error, not yet grounded in systematic theory.
Sin embargo, los sistemas modernos como Claude y ChatGPT parecen ser capaces de generalizar. Kasy compara el desarrollo moderno de la IA con la alquimia: exitoso mediante prueba y error, pero aún no fundamentado en una teoría sistemática.
As a result, the behaviour of AI models is partly opaque even to their builders.
Como resultado, el comportamiento de los modelos de IA es parcialmente opaco incluso para sus creadores.
Hard to regulate
Difícil de regular
The opacity of the technology is one key reason it’s so hard to regulate. Governments lack independent access to the data, infrastructure and expertise they would need to evaluate proprietary frontier models.
La opacidad de la tecnología es una razón clave por la que resulta tan difícil de regular. Los gobiernos carecen de acceso independiente a los datos, la infraestructura y la experiencia que necesitarían para evaluar modelos fronterizos propietarios.
The US administration’s recent executive order on AI security, published two weeks ago, reflects this realisation. As the administration has realised the power of frontier AI models, it has moved from an initial hands-off posture to asking developers to share their models for review before release.
La reciente orden ejecutiva de la administración estadounidense sobre seguridad de IA, publicada hace dos semanas, refleja esta comprensión. A medida que la administración ha reconocido el poder de los modelos avanzados de IA, ha pasado de una postura inicial de no intervención a pedir a los desarrolladores que compartan sus modelos para revisión antes del lanzamiento.
That demand is an implicit admission that the administration does not trust the companies to evaluate, fully and comprehensively, what their own models can do and how they might be misused. The public sees even less, and the consequence is measurable: a survey taken across 25 countries last year found people are, on balance, more than twice as concerned about AI as they are excited about it.
Esta demanda es una admisión implícita de que la administración no confía en las empresas para evaluar, de manera completa y exhaustiva, lo que pueden hacer sus propios modelos y cómo podrían ser mal utilizados. El público ve aún menos, y la consecuencia es medible: una encuesta realizada en 25 países el año pasado encontró que la gente está, en general, más preocupada por la IA de lo que está emocionada por ella.
The future of AI safety
El futuro de la seguridad de la IA
AI is a hugely hyped technology. But there is no doubt it is also extremely powerful and unpredictable. Understandably, this combination is very dangerous.
La IA es una tecnología muy promocionada. Pero no hay duda de que también es extremadamente poderosa e impredecible. Es comprensible que esta combinación sea muy peligrosa.
We cannot rely on regulations, as technology will develop more quickly than they can adapt. Nor can we rely on guardrails, as they will be bypassed.
No podemos depender de las regulaciones, ya que la tecnología se desarrollará más rápido de lo que ellas pueden adaptarse. Tampoco podemos depender de los mecanismos de control, ya que serán eludidos.
We need a governance framework built for that eventuality: one that can predict and address the consequences of failure.
Necesitamos un marco de gobernanza construido para esa eventualidad: uno que pueda predecir y abordar las consecuencias del fracaso.
Such a framework must be global, participatory, and founded on reciprocal trust. These are things the current US administration has shown little capacity to generate.
Un marco así debe ser global, participativo y fundado en la confianza recíproca. Son cosas que la administración actual de EE. UU. ha demostrado tener poca capacidad para generar.
Francesco Bailo has received funding from Meta (2019) and from Australia’s Department of Defence (2023) .
Francesco Bailo ha recibido financiación de Meta (2019) y del Departamento de Defensa de Australia (2023) .
Read more
-

‘Una civilización entera morirá esta noche’: La amenaza de genocidio de Trump contra Irán fue otro nuevo mínimo para América
‘A whole civilisation will die tonight’: Trump’s genocide threat against Iran was another new low for America
-

Las tácticas coercitivas de Trump en América Latina evocan la era de la diplomacia del buque de guerra, y el auge del antiimperialismo que ayudó a impulsar.
Trump’s coercive tactics in Latin America evoke era of gunboat diplomacy – and the rise of anti-imperialism it helped spur