ChatGPT-5 đã bị jailbreak

Đăng lúc 21:20 09.08.2025

Chỉ 1 ngày sau khi OpenAI giới thiệu GPT-5, hai công ty bảo mật AI là NeuralTrust và SPLX (trước đây là SplxAI) đã thử nghiệm và nhanh chóng phát hiện những lỗ hổng nghiêm trọng của model vừa ra mắt.


Không lâu khi phát hành, nhóm nghiên cứu của NeuralTrust đã sử dụng một kỹ thuật jailbreak gọi là EchoChamber kết hợp với kỹ thuật dẫn dắt kể chuyện để khiến GPT-5 tạo ra hướng dẫn chi tiết cho việc chế tạo bom xăng Molotov - điều mà đội ngũ OpenAI luôn tìm cách ngăn chặn model trả lời để đảm bảo tính an toàn của chatbot.

Nhóm nghiên cứu cho biết trong quá trình jailbreak dụ ChatGPT-5 nói bậy, họ không hề đưa ra câu hỏi trực tiếp mà thay vào đó, họ khéo léo gieo các yếu tố tiềm ẩn khi nói chuyện qua nhiều lượt, khiến model bị dẫn dắt, tự bám chặt vào mạch chuyện và cuối cùng tự nguyện cung cấp nội dung vi phạm nguyên tắc của nó mà không thể kích hoạt cơ chế từ chối. Qua đó, nhóm kết luận rằng nhược điểm lớn của GPT-5 là nó luôn ưu tiên duy trì tính nhất quán của ngữ cảnh hội thoại, dù ngữ cảnh đó bị âm thầm lái sang mục tiêu độc hại.

Trong khi đó, SPLX tiến hành một kiểu tấn công khác, tập trung vào thủ thuật che giấu prompt gọi là StringJoin Obfuscation Attack. Bằng cách chèn dấu gạch giữa từng ký tự của prompt và khoác lên toàn bộ một kịch bản “giải mã”, cuối cùng họ cũng đã đánh lừa được hệ thống lọc nội dung. Trong một thí dụ, sau khi mô hình bị dẫn dắt qua hàng loạt lời dẫn dài dòng, câu hỏi “làm thế nào để chế tạo bom” được trình bày dưới dạng đã bị mã hóa giả. GPT-5 không chỉ trả lời câu hỏi độc hại này đầy đủ thông tin, mà còn phản hồi một cách dí dỏm, thân mật, hoàn toàn bỏ qua cơ chế từ chối mà nó được thiết kế.

Cả hai phương thức đều chứng minh rằng các hệ thống kiểm duyệt hiện tại của GPT-5 vốn chủ yếu chỉ tập trung vào từng prompt đơn lẻ sẽ dễ dàng bị qua mặt bởi các cuộc tấn công nhiều lượt nói chuyện có cài cắm ngữ cảnh. Khi mô hình đã bước sâu vào một câu chuyện hoặc kịch bản giả định, nó sẽ bị chi phối và sẽ tiếp tục triển khai nội dung phù hợp với bối cảnh đã được gài bẫy, cho dù nội dung đó nguy hiểm hay bị cấm.

Dựa trên kết quả này, SPLX cho rằng GPT-5 nếu không tùy biến sẽ gần như không thể sử dụng an toàn trong môi trường doanh nghiệp, ngay cả khi được gia cố bằng các lớp prompt bảo vệ thì vẫn còn nhiều kẽ hở. Ngược lại, GPT-4o vẫn tỏ ra bền vững hơn trước các cuộc tấn công như vậy, đặc biệt khi được thiết lập cơ chế phòng vệ chặt chẽ.

Từ đó, các chuyên gia cảnh báo rằng việc đưa GPT-5 ứng dụng ngay vào thực tế, đặc biệt trong những lĩnh vực đòi hỏi an toàn cao, là vô cùng rủi ro. Kỹ thuật bảo vệ như prompt hardening chỉ giải quyết được một phần vấn đề và không thể thay thế cho các giải pháp giám sát, phòng vệ nhiều lớp theo thời gian thực. Có thể thấy, hiện tại các kỹ thuật tấn công dựa trên ngữ cảnh và che giấu nội dung ngày càng tinh vi, GPT-5 tuy mạnh mẽ về năng lực xử lý ngôn ngữ vẫn chưa đạt mức độ an toàn cần thiết để triển khai rộng rãi mà không đi kèm các cơ chế bảo vệ bổ sung.

Tham khảo SW

 
==***==

Khoá học: Quản trị Chiến lược Dành cho các Lãnh đạo Doanh nghiệp
Nhấn vào đây để bắt đầu khóa học

Khóa học: Trở thành chuyên gia Bảo mật và tấn công ANM- Hacker mũ trắng
Nhấn vào đây để bắt đầu khóa học

Chuyên gia phân tích, tự động hóa Web iMacros
Nhấn vào đây để bắt đầu khóa học

Xây dựng ứng dụng tự động hóa AutoIT
Nhấn vào đây để bắt đầu khóa học

Khóa đào tạo Hacker và Marketing Facebook từ A - Z
Nhấn vào đây để bắt đầu khóa học

Khóa học: Phân tích và trực quan hóa dữ liệu với Power BI
Nhấn vào đây để bắt đầu khóa học

Khóa học đào tạo Marketing Facebook thông minh
Nhấn vào đây để bắt đầu khóa học

Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Nhấn vào đây để bắt đầu khóa học

Làm chủ xây dựng Game chuyên nghiệp
Nhấn vào đây để bắt đầu khóa học

Trở thành chuyên gia Marketing Facebook thông minh
Nhấn vào đây để bắt đầu khóa học

Kỹ sảo Điện ảnh đỉnh cao với khóa học After Effect
Nhấn vào đây để bắt đầu khóa học

Trở thành chuyên gia Vẽ Đẳng Cấp với khóa học AI
Nhấn vào đây để bắt đầu khóa học

Làm Chủ thiết kế ảnh với Photoshop CC
Nhấn vào đây để bắt đầu khóa học

Dựng Phim Siêu đẳng với Adobe Premiere
Nhấn vào đây để bắt đầu khóa học

Khóa dựng phần mềm quản lý dành cho nhà Quản lý và Kế toán bằng MS ACCESS
Nhấn vào đây để bắt đầu khóa học

Khóa học Machine Learning cơ bản-Khoa học dữ liệu - AI
Nhấn vào đây để bắt đầu khóa học

Khóa học Đào tạo sử dụng Excel Chuyên nghiệp & ứng dụng
Nhấn vào đây để bắt đầu khóa học

Khóa học sử dụng PowerPoint Chuyên nghiệp & ứng dụng
Nhấn vào đây để bắt đầu khóa học

Khóa học xây dựng và quản trị hệ thống đào tạo trực tuyến
Nhấn vào đây để bắt đầu khóa học

Đóng góp nội dung

Gửi ý kiến cho ban biên tập
Gửi thông tin

Thông tin

ĐĂNG KÝ/LIÊN HỆ: