Mô hình chỉ là phần nổi, thứ làm Claude thật sự đáng sợ nằm ở tầng vận hành bên dưới

Đăng lúc 23:35 19.06.2026

Khi Anthropic công bố Claude Mythos vào ngày 7 tháng 4 năm 2026, phản ứng đầu tiên của cộng đồng AI là nhìn vào con số benchmark: 97,6% trên đề thi Toán Olympiad Mỹ 2026, cao hơn Opus 4.6 tới 55 điểm phần trăm. Viện An ninh AI của Anh (AISI) ghi nhận Mythos có thể tự thực hiện các cuộc tấn công mạng nhiều bước với tỷ lệ thành công 73%, những nhiệm vụ mà cho đến tháng 4 năm 2025, không một AI nào làm được. Kết quả là Anthropic không phát hành Mythos ra công chúng, giới hạn quyền truy cập qua chương trình Project Glasswing cho khoảng 50 tổ chức đối tác bao gồm Apple, Microsoft và NVIDIA.

Nhưng câu hỏi đúng hơn không phải là "Mythos thông minh đến đâu?" mà là: cơ chế nào đã biến một mô hình ngôn ngữ thành một thứ có thể tự tìm lỗ hổng bảo mật tồn tại 27 năm trong OpenBSD?

Câu trả lời không nằm ở trọng số mô hình. Nó nằm ở lớp kiến trúc vận hành bên dưới.

Context window là “bộ nhớ làm việc” và mọi thứ đều tranh nhau chỗ trong đó

Trước khi anh em gõ một chữ nào, Claude đã "đọc" rất nhiều thứ. Mỗi lần khởi tạo một phiên làm việc, hệ thống đẩy vào đầu context window một khối văn bản gọi là system prompt, viết bằng tiếng Anh thông thường, không phải code, nhưng có vai trò như một bản tóm lược toàn diện trước khi cuộc hội thoại bắt đầu.

Hình dung thế này: anh em thuê một nhân viên mới, và trước khi họ gặp khách hàng lần đầu, bạn ngồi lại briefing: "anh là trợ lý pháp lý của công ty chúng tôi, chỉ trả lời câu hỏi liên quan đến hợp đồng, luôn giữ giọng điệu chuyên nghiệp, không đưa ra lời khuyên nếu chưa có đủ thông tin." System prompt hiểu nôm na là bản briefing đó và nó chạy lại mỗi phiên làm việc, trước mỗi câu bạn hỏi.

Trên claude.ai, Anthropic tự load system prompt mặc định ở phía backend, anh em không thấy nó, nhưng nó đang chạy. Nó set ngày giờ hiện tại, liệt kê các công cụ Claude được phép dùng như web search hay tạo file, và quy định cách format câu trả lời. Đó là lý do cùng một câu hỏi, Claude trả lời khác nhau tùy nơi bạn hỏi.

Context Windows đóng vai trò quan trọng trong cách vận hành của Claude

Ngoài ra, anh em nào dùng tính năng Projects trên claude.ai thực chất đang tự viết một phiên bản system prompt cho riêng mình: "bạn là trợ lý viết content của tôi, tôi viết cho TinhTe.vn, giọng văn tự nhiên không cần hoa mỹ." Viết một lần, Claude áp dụng cho mọi conversation trong project đó mà không cần nhắc lại. Còn developer dùng API thì sẽ có toàn quyền kiểm soát hơn khi Anthropic không thêm vào bất kì thứ gì và họ có thể thiết kế system prompt phức tạp đến mức inject cả ngữ cảnh nghiệp vụ, quyền hạn, và danh sách công cụ được phép dùng.

Chính vì thế, các công ty tự phát triển sản phẩm trên nền tảng của Claude như chatbot chăm sóc khách hàng ngân hàng, trợ lý đặt lịch khám bệnh, hay công cụ hỗ trợ pháp lý nội bộ, sẽ inject system prompt chứa toàn bộ ngữ cảnh nghiệp vụ của họ: Claude này chỉ được trả lời về sản phẩm của công ty, output phải theo format nhất định, không được thảo luận ngoài scope. Người dùng cuối chỉ thấy giao diện sản phẩm và họ không biết Claude đang chạy bên dưới, và càng không thấy system prompt đó.

System prompt của Claude Code, phiên bản agentic dành cho lập trình, chiếm khoảng 23.000 token mỗi phiên, tức hơn 11% toàn bộ context window. Điều thú vị là system prompt này giống nhau cho mọi người dùng cùng phiên bản, không thay đổi theo cá nhân. Lý do là yếu tố kinh tế: Anthropic cache phần này và dùng chung cho hàng triệu người, nếu system prompt thay đổi theo từng người, chi phí xử lý sẽ tăng theo cấp số nhân.

Vậy thông tin cá nhân hóa đi đâu? Anthropic giải quyết bằng một cơ chế tách biệt: thông tin riêng của từng người được gắn vào luồng hội thoại như một ghi chú ưu tiên cao, thay vì nhét vào system prompt chung. Model vẫn hiểu và tuân theo, nhưng phần cache dùng chung không bị ảnh hưởng. Đây là ví dụ điển hình của tư duy thiết kế hệ thống: giải quyết mâu thuẫn giữa cá nhân hóa và hiệu quả chi phí bằng cách thiết kế lại luồng dữ liệu chứ không phải bằng cách nâng cấp model.

Skills: Claude tự load kiến thức theo nhu cầu thay vì nhồi mọi thứ vào một lần

Một trong những thay đổi quan trọng nhất trong kiến trúc Claude từ cuối 2025 là Agent Skills: cơ chế cho phép Claude chủ động load các khối kiến thức chuyên biệt vào context khi cần, thay vì để nguyên một system prompt khổng lồ cố định.

Khi anh em yêu cầu Claude "tạo một presentation theo brand guideline của công ty," Claude có thể tự động load hai Skills: một Skills về tạo slide, một Skills về brand standards của tổ chức bạn. Anh em không cần chỉ định gì thêm vì quá trình này xảy ra ở tầng vận hành, dựa trên mô tả trong system prompt và sự khớp ngữ nghĩa giữa yêu cầu của bạn và tên/mô tả của từng Skill.

Skills là một giải pháp rất thông minh khi nó giải quyết một bài toán cực kỳ thực tế: context window có giới hạn, và việc nhồi toàn bộ thông tin tổ chức vào system prompt vừa tốn kém vừa kém hiệu quả. Thay vào đó, Skills hoạt động như bộ nhớ ngoài theo yêu cầu: chỉ được kéo vào khi thật sự cần thiết. Anthropic gọi đây là progressive disclosure: nguyên tắc thiết kế cốt lõi cho phép hệ thống Agent vừa linh hoạt vừa có thể mở rộng quy mô.

Skills là một giải pháp rất thông minh để hỗ trợ mở rộng context windows

Điểm đáng chú ý là Skills còn có thể chứa code thực thi. Ví dụ Anthropic đưa ra trong tài liệu kỹ thuật: khi xử lý PDF để trích form field, Claude có thể chạy một Python script từ Skill mà không cần load cả script lẫn file PDF vào context window. Khả năng này đánh dấu ranh giới giữa "AI trả lời câu hỏi" và "AI thực hiện tác vụ."

Kết hợp thêm tính năng Scheduled Tasks, Skills trở nên thú vị hơn nhiều. Mình đang dùng cách này để tự động hóa một số việc hàng ngày: Claude chạy theo lịch, gọi script đọc dữ liệu từ Google Drive, phân tích, rồi ghi kết quả trở lại vào file tương ứng mà không cần mình ngồi đó. Điều mình thấy có giá trị thực sự là Claude không chỉ tổng hợp số liệu, nó áp dụng nhất quán một bộ tiêu chí đánh giá cố định, và chính sự nhất quán đó giúp phát hiện ra những pattern mà việc review thủ công dễ bỏ qua vì mệt hoặc vì quen mắt. Đó là lúc AI bắt đầu cảm giác như một cộng sự làm việc song song thay vì một công cụ chờ được hỏi.

MCP: từ N×M tích hợp xuống còn N+M

Trước khi MCP (Model Context Protocol) tồn tại, mỗi lần muốn kết nối một AI với một công cụ bên ngoài như GitHub, Slack, Notion, cơ sở dữ liệu, nhà phát triển phải viết một lớp tích hợp riêng. Năm AI tools, mười data sources: 50 bộ integration, mỗi bộ với bug và những rủi ro về bảo mật riêng biệt.

Anthropic giới thiệu MCP vào tháng 11 năm 2024 như một giao thức mở chuẩn hóa việc kết nối AI với công cụ ngoài, xây dựng trên JSON-RPC 2.0. Ý tưởng cốt lõi: viết một MCP server một lần, dùng được với mọi AI client hỗ trợ giao thức. Từ N×M tích hợp rời rạc xuống còn N+M khi mỗi bên chỉ cần implement một lần. Tháng 12 năm 2025, Anthropic hiến tặng MCP cho Linux Foundation, và nó được đồng thời adopt bởi OpenAI, Google, Microsoft, cùng hàng loạt công cụ lập trình như Cursor và GitHub Copilot. Tính đến đầu 2026, MCP đã có hơn 97 triệu lượt download mỗi tháng và hơn 10.000 public server.

Claude MCP tối ưu hoá mặt tích hợp, kết hợp với cách vận hành ở bên dưới giúp việc quyết định gọi công cụ nào, thứ tự ra sao

Về mặt vận hành, MCP server đóng vai trò như phần mở rộng của hệ thần kinh Claude: model biết các công cụ nào đang available (thông qua tool description trong context), quyết định khi nào cần gọi tool, phát lệnh theo chuẩn MCP, nhận kết quả, và tích hợp vào dòng suy luận tiếp theo. Ở tầng ngoài cùng, người dùng chỉ thấy một cuộc hội thoại. Bên trong, Claude không chỉ đơn giản là nhận câu hỏi rồi trả lời. Với một yêu cầu phức tạp như "tóm tắt tiến độ dự án tuần này và nêu ra những tính năng đang bị block" Claude có thể tự phân rã thành nhiều bước: gọi lên hệ thống để lấy danh sách tính năng, gọi GitHub để kiểm tra commit liên quan, truy vấn database để xem log lỗi gần nhất và tất cả diễn ra song song, không phải tuần tự. Khi có đủ dữ liệu, Claude mới tổng hợp và viết câu trả lời.

Điểm thông minh ở đây không phải là Claude "biết" Jira hay GitHub mà là Claude biết khi nào cần gọi công cụ nào, thứ tự nào hợp lý, và cách kết hợp kết quả từ nhiều nguồn khác nhau thành một câu trả lời mạch lạc. Một junior analyst làm việc này có thể mất nửa buổi sáng. Claude làm trong vài giây và không bỏ sót bước nào vì không bị phân tâm.

Anthropic thiết kế Claude để nó tự quyết định luồng này dựa trên ngữ cảnh, không phải dựa trên một script cứng nhắc định sẵn. Đó là sự khác biệt giữa "automation" truyền thống — làm đúng những gì được lập trình — và "agentic AI" — tự suy luận xem cần làm gì để đạt mục tiêu.

Agentic loop: khi Claude ngừng trả lời và bắt đầu hành động

Sự khác biệt giữa một chatbot và một agent nằm ở vòng lặp. Một chatbot nhận câu hỏi, trả lời, chờ. Một agent nhận mục tiêu, kết hợp với system prompt hoặc prompt do người dùng xác định, sẽ tự phân rã thành các task con, thực thi từng bước, quan sát kết quả, điều chỉnh kế hoạch, tiếp tục: lặp lại cho đến khi hoàn thành hoặc gặp điều kiện cần hỏi người.

Claude Code, phiên bản agentic của Anthropic cho lập trình, hoạt động theo mô hình này. Khi nhận một yêu cầu phức tạp, nó có thể spawn các subagent, mỗi subagent chạy trong context window riêng biệt, xử lý một subtask cụ thể, rồi trả tổng hợp để trả về thông tin cho agent chính. Điều này giải quyết một giới hạn cơ bản: nếu một task đòi hỏi đọc hàng chục file lớn, không thể nhồi tất cả vào một context. Subagent xử lý từng file trong context riêng, chỉ trả về thông tin cần thiết.

Đây là lý do tại sao kiến trúc vận hành quan trọng hơn bản thân mô hình khi nói về năng lực thực chiến. Mythos với 73% tỷ lệ thành công trong tấn công mạng không chỉ là vì model “thông minh hơn”, mà là vì khi được trao quyền truy cập mạng, công cụ thực thi lệnh, và vòng lặp agentic để tự điều chỉnh chiến thuật sau mỗi bước, một model đủ mạnh trở thành một hệ thống tự vận hành. Đó là lý do Anthropic giữ Mythos trong Project Glasswing thay vì release rộng, không hoàn toàn vì model nguy hiểm khi bị hỏi câu hỏi, mà vì model nguy hiểm khi được kết nối với nền tảng vận hành mạnh mẽ và được phép hành động.

Tại sao hiểu tầng vận hành mới là điều quan trọng

Fable 5, phiên bản Mythos-class vừa được Anthropic phát hành công khai ngày 9 tháng 6 năm 2026, có thể làm được những gì Mythos làm, nhưng với một lớp classifier chặn các yêu cầu mang tính rủi ro cao về mặt an ninh mạng, sinh học và hóa học. Điều đó có nghĩa là năng lực nền của model không thay đổi, chỉ là tầng vận hành phía trên quyết định nó được phép làm gì.

Đây chính là insight quan trọng nhất: giới hạn và năng lực của một AI system hiện đại không chủ yếu nằm ở trọng số mô hình. Chúng nằm ở system prompt, ở Skills được load, ở MCP server nào được kết nối, ở agentic loop được thiết kế như thế nào, và ở kênh kiểm duyệt nào được đặt vào giữa các bước thực thi. Một model như Fable 5 trên claude.ai và Fable 5 trong một pipeline agentic có full network access là hai thứ khác nhau về tính nguy hiểm, dù trọng số giống hệt nhau.

Người dùng thông thường nhìn vào benchmark. Kỹ sư nhìn vào kiến trúc. Khi AI bắt đầu ảnh hưởng thực sự đến hệ thống thật, như hạ tầng tài chính, hay hệ thống y tế, an ninh mạng, thực thi pháp luật câu hỏi quan trọng nhất không phải là "model này đạt bao nhiêu điểm?" mà là "tầng vận hành được thiết kế cẩn thận đến đâu?" Và câu hỏi đó không chỉ dành cho kỹ sư, mà cho bất kỳ ai đang quyết định trao quyền cho AI làm việc thay mình.