
Tại sao chính phủ Mỹ ngừng hoạt động mô hình Claude AI mới nhất của Anthropic
Why the US government shut down Anthropic’s latest Claude AI model
An “export control directive” for Anthropic’s Fable and Mythos models highlights the chaotic, fast-changing state of AI regulation.
Một “chỉ thị kiểm soát xuất khẩu” đối với các mô hình Fable và Mythos của Anthropic làm nổi bật tình trạng hỗn loạn, thay đổi nhanh chóng của quy định về AI.
On June 12, artificial intelligence (AI) lab Anthropic suspended access to its latest Claude models, Fable 5 and Mythos 5, which had been released three days earlier.
Vào ngày 12 tháng 6, phòng thí nghiệm trí tuệ nhân tạo (AI) Anthropic đã đình chỉ quyền truy cập vào các mô hình Claude mới nhất của mình là Fable 5 và Mythos 5, vốn được phát hành ba ngày trước đó.
The move came in response to an “export control directive” from the US government prohibiting use of the models by anyone who is not a US national.
Động thái này được đưa ra nhằm đáp lại một “chỉ thị kiểm soát xuất khẩu” từ chính phủ Mỹ, cấm những người không phải công dân Mỹ sử dụng các mô hình này.
Mythos is Anthropic’s most powerful, or “frontier”, model. When first announcing the model in April, the company said it was too good at hacking to release immediately. Instead, Mythos was made available to a handful of organisations (mostly US tech corporations) to use to patch weaknesses in essential digital systems.
Mythos là mô hình mạnh nhất của Anthropic, hay còn gọi là mô hình “tiên phong”. Khi lần đầu công bố mô hình vào tháng 4, công ty cho biết nó quá giỏi trong việc hack nên chưa thể phát hành ngay lập tức. Thay vào đó, Mythos được cung cấp cho một số ít tổ chức (chủ yếu là các tập đoàn công nghệ Mỹ) để sử dụng nhằm vá các lỗ hổng trong các hệ thống kỹ thuật số thiết yếu.
Fable is the same basic model, but with added safeguards meant to stop it being used for cybersecurity purposes. This is what was released to the public last week – and almost immediately shut down.
Fable là mô hình cơ bản tương tự, nhưng có bổ sung các biện pháp bảo vệ nhằm ngăn chặn việc nó bị sử dụng cho mục đích an ninh mạng. Đây là thứ đã được phát hành công khai vào tuần trước – và gần như ngay lập tức bị ngừng hoạt động.
Anthropic and the Trump administration at loggerheads
Anthropic và chính quyền Trump đối đầu nhau
Since early 2025, Anthropic and the Trump administration have been in escalating conflict. The administration has accused Anthropic of making “woke AI” and called chief executive Dario Amodei an “ideological lunatic”.
Kể từ đầu năm 2025, Anthropic và chính quyền Trump đã rơi vào xung đột leo thang. Chính quyền này cáo buộc Anthropic tạo ra “AI mang tính thức tỉnh” và gọi giám đốc điều hành Dario Amodei là một “kẻ điên về mặt ý thức hệ”.
Early disagreements concerned AI regulation and semiconductor export policy. The dispute sharpened when Anthropic declined to let the Pentagon use its models for domestic surveillance and fully autonomous weapons systems.
Những bất đồng ban đầu liên quan đến quy định về AI và chính sách xuất khẩu chất bán dẫn. Tranh chấp trở nên gay gắt khi Anthropic từ chối cho Bộ Quốc phòng sử dụng các mô hình của mình cho mục đích giám sát trong nước và hệ thống vũ khí tự hành hoàn toàn.
The Department of Defense responded by threatening to designate Anthropic a “supply chain risk”, a classification that would have required military contractors to sever ties.
Bộ Quốc phòng đã đáp lại bằng cách đe dọa chỉ định Anthropic là một “rủi ro chuỗi cung ứng”, một phân loại sẽ yêu cầu các nhà thầu quân sự phải cắt đứt hợp tác.
Jailbreaks
Jailbreaks
The US government has not yet publicly stated the reason for last week’s directive, but Anthropic it says it believes the government became aware of a jailbreak: a method for circumventing the safeguards in Fable that prevent using its most powerful features for nefarious purposes.
Chính phủ Hoa Kỳ chưa công bố lý do đằng sau chỉ thị tuần trước, nhưng Anthropic cho biết họ tin rằng chính phủ đã nhận thấy một lỗ hổng jailbreak: một phương pháp để vượt qua các biện pháp bảo vệ trong Fable nhằm ngăn chặn việc sử dụng các tính năng mạnh nhất của nó vào mục đích xấu.
These safeguards classify user requests as safe or unsafe before passing them to the AI model. When triggered, the safeguards redirect the request to a less powerful model.
Các biện pháp bảo vệ này phân loại yêu cầu của người dùng là an toàn hay không an toàn trước khi chuyển chúng đến mô hình AI. Khi bị kích hoạt, các biện pháp bảo vệ sẽ chuyển hướng yêu cầu đó đến một mô hình kém mạnh hơn.
The government’s concern, according to Anthropic, was that the safeguards could be bypassed to extract information useful for cyberattacks.
Theo Anthropic, mối lo ngại của chính phủ là các biện pháp bảo vệ này có thể bị bỏ qua để trích xuất thông tin hữu ích cho các cuộc tấn công mạng.
Guardrails for large language models aren’t bulletproof. They mostly depend on the model’s own capacity to interpret the user’s intentions in making a request.
Các rào chắn (guardrails) dành cho các mô hình ngôn ngữ lớn không phải là bất khả xâm phạm. Chúng chủ yếu phụ thuộc vào khả năng tự diễn giải ý định của người dùng khi đưa ra yêu cầu của mô hình.
Beyond the inherent difficulty of this task, a large online community (which my colleagues and I call the Undersphere) is working hard to circumvent AI guardrails. Anthropic acknowledges that “perfect jailbreak resistance is not achievable for any current model provider”.
Ngoài khó khăn vốn có của nhiệm vụ này, một cộng đồng trực tuyến lớn (mà các đồng nghiệp và tôi gọi là Undersphere) đang nỗ lực để vượt qua các rào chắn AI. Anthropic thừa nhận rằng “khả năng kháng jailbreak hoàn hảo là không thể đạt được đối với bất kỳ nhà cung cấp mô hình hiện tại nào”.
Anthropic says the research behind the government directive appears to have been produced by engineers at Amazon, which is both a rival to Anthropic and a significant investor.
Anthropic cho biết nghiên cứu đằng sau chỉ thị của chính phủ dường như đã được thực hiện bởi các kỹ sư tại Amazon, một công ty vừa là đối thủ cạnh tranh vừa là nhà đầu tư lớn của Anthropic.
But this was not the only relevant jailbreak. Within 48 hours of Fable’s release, a researcher using the pseudonym “Pliny the Liberator” published what they identified as Fable 5’s full system prompt to X and GitHub repository.
Nhưng đây không phải là lỗ hổng jailbreak duy nhất có liên quan. Trong vòng 48 giờ sau khi Fable ra mắt, một nhà nghiên cứu sử dụng bút danh “Pliny the Liberator” đã công bố những gì họ xác định là system prompt đầy đủ của Fable 5 trên X và kho lưu trữ GitHub.
The system prompt is a hidden set of instructions that helps determine an AI model’s behaviour. It’s unclear exactly how knowledge of Fable’s system prompt could be used in practice, but it has drawn attention in the Undersphere.
System prompt là một bộ hướng dẫn ẩn giúp xác định hành vi của mô hình AI. Hiện chưa rõ chính xác việc biết về system prompt của Fable có thể được sử dụng trong thực tế như thế nào, nhưng nó đã thu hút sự chú ý trong Undersphere.
A surprise – and an ongoing mystery
Một bí ẩn – và một vấn đề chưa được giải đáp
The deepest problem of making large language models such as Fable secure is that we don’t fully know how they work. According to Oxford University economist and machine learning expert Maximilian Kasy, they work much better than they “should”.
Vấn đề sâu sắc nhất khi làm cho các mô hình ngôn ngữ lớn (LLM) như Fable trở nên an toàn là chúng ta không hiểu rõ cách thức hoạt động của chúng. Theo Maximilian Kasy, nhà kinh tế học và chuyên gia học máy thuộc Đại học Oxford, những mô hình này hoạt động tốt hơn nhiều so với mức “nên” của chúng.
Large language models have billions of internal parameters and are trained on unimaginably vast piles of data using machine learning methods. According to Kasy, we would expect such systems to be “overfitted”: good at reproducing patterns in their training data, but bad at generalising to new situations.
Các mô hình ngôn ngữ lớn có hàng tỷ tham số nội bộ và được huấn luyện trên lượng dữ liệu khổng lồ không thể tưởng tượng được bằng các phương pháp học máy. Theo Kasy, chúng ta kỳ vọng rằng các hệ thống như vậy sẽ bị “quá khớp” (overfitted): giỏi tái tạo các mẫu trong dữ liệu huấn luyện, nhưng kém khả năng khái quát hóa cho các tình huống mới.
However, modern systems such as Claude and ChatGPT do seem to be able to generalise. Kasy likens modern AI development to alchemy: successful through trial and error, not yet grounded in systematic theory.
Tuy nhiên, các hệ thống hiện đại như Claude và ChatGPT dường như có khả năng khái quát hóa. Kasy ví sự phát triển AI hiện đại giống như thuật giả kim: thành công thông qua thử và sai, chưa được xây dựng trên lý thuyết có hệ thống.
As a result, the behaviour of AI models is partly opaque even to their builders.
Kết quả là, hành vi của các mô hình AI một phần mờ đục ngay cả đối với những người xây dựng chúng.
Hard to regulate
Khó điều chỉnh
The opacity of the technology is one key reason it’s so hard to regulate. Governments lack independent access to the data, infrastructure and expertise they would need to evaluate proprietary frontier models.
Tính thiếu minh bạch của công nghệ là một lý do chính khiến việc quản lý nó trở nên khó khăn. Các chính phủ không có quyền truy cập độc lập vào dữ liệu, cơ sở hạ tầng và chuyên môn cần thiết để đánh giá các mô hình tiên tiến độc quyền.
The US administration’s recent executive order on AI security, published two weeks ago, reflects this realisation. As the administration has realised the power of frontier AI models, it has moved from an initial hands-off posture to asking developers to share their models for review before release.
Lệnh hành pháp gần đây của chính quyền Mỹ về an ninh AI, được công bố hai tuần trước, phản ánh nhận thức này. Khi chính quyền nhận ra sức mạnh của các mô hình AI tiên tiến, họ đã chuyển từ lập trường ban đầu là không can thiệp sang yêu cầu các nhà phát triển chia sẻ mô hình của họ để xem xét trước khi phát hành.
That demand is an implicit admission that the administration does not trust the companies to evaluate, fully and comprehensively, what their own models can do and how they might be misused. The public sees even less, and the consequence is measurable: a survey taken across 25 countries last year found people are, on balance, more than twice as concerned about AI as they are excited about it.
Yêu cầu đó là một sự thừa nhận ngầm rằng chính quyền không tin tưởng vào các công ty trong việc đánh giá đầy đủ và toàn diện những gì các mô hình của họ có thể làm và cách chúng có thể bị lạm dụng. Công chúng còn ít biết hơn, và hậu quả là điều có thể đo lường được: một cuộc khảo sát thực hiện tại 25 quốc gia năm ngoái cho thấy người dân lo lắng về AI nhiều hơn gấp đôi so với mức độ hào hứng của họ.
The future of AI safety
Tương lai của an toàn AI
AI is a hugely hyped technology. But there is no doubt it is also extremely powerful and unpredictable. Understandably, this combination is very dangerous.
AI là một công nghệ được quảng bá rất lớn. Nhưng không nghi ngờ gì rằng nó cũng cực kỳ mạnh mẽ và khó lường. Hiểu được điều này, sự kết hợp này rất nguy hiểm.
We cannot rely on regulations, as technology will develop more quickly than they can adapt. Nor can we rely on guardrails, as they will be bypassed.
Chúng ta không thể dựa vào các quy định, vì công nghệ sẽ phát triển nhanh hơn khả năng thích ứng của chúng. Cũng không thể dựa vào các rào chắn an toàn, vì chúng sẽ bị vượt qua.
We need a governance framework built for that eventuality: one that can predict and address the consequences of failure.
Chúng ta cần một khung quản trị được xây dựng cho tình huống đó: một khung có thể dự đoán và giải quyết các hậu quả của sự thất bại.
Such a framework must be global, participatory, and founded on reciprocal trust. These are things the current US administration has shown little capacity to generate.
Một khung như vậy phải mang tính toàn cầu, có sự tham gia của nhiều bên và được xây dựng trên lòng tin tương hỗ. Đây là những điều mà chính quyền Mỹ hiện tại đã thể hiện ít khả năng tạo ra.
Francesco Bailo has received funding from Meta (2019) and from Australia’s Department of Defence (2023) .
Francesco Bailo đã nhận được tài trợ từ Meta (2019) và từ Bộ Quốc phòng Úc (2023) .
Read more
-

Hugh Jackman đóng vai Robin Hood một cách độc ác – đây là một phiên bản không đúng thời điểm về người hùng của người nghèo
Hugh Jackman plays Robin Hood as wicked – it’s a badly timed take on the hero of the poor
