Chi tiết mô hình OpenAI GPT-5: "Một đội tiến sĩ và chuyên gia trên màn hình của anh em"
Đăng lúc
22:58 08.08.2025
Tiêu đề chính là cách mà CEO Sam Altman mô tả GPT-5.
GPT-5 là một hệ thống thống nhất với mô hình thông minh, hiệu quả, có thể trả lời hầu hết các câu hỏi, mô hình lý luận sâu hơn (tư duy GPT-5) cho các vấn đề khó hơn, và bộ định tuyến thời gian thực nhanh chóng quyết định dựa trên loại hội thoại, độ phức tạp, nhu cầu công cụ và ý định rõ ràng của bạn (ví dụ: nếu anh em nói "hãy suy nghĩ kỹ về điều này" trong prompt).
Bộ định tuyến liên tục được đào tạo dựa trên các tín hiệu thực tế, bao gồm thời điểm người dùng chuyển đổi mô hình, tỷ lệ ưu tiên cho phản hồi và độ chính xác được đo lường, và được cải thiện theo thời gian. Khi đạt đến giới hạn sử dụng, một phiên bản thu nhỏ của mỗi mô hình sẽ xử lý các truy vấn còn lại. Trong tương lai gần, OpenAI dự định tích hợp các khả năng này vào một mô hình duy nhất.
Ứng dụng thực tế
Lập trình
GPT-5 cho thấy những cải tiến đặc biệt trong việc tạo ra các front-end phức tạp và sửa bug cho các repository lớn hơn. Nó thậm chí còn có thể tạo ra các trang web, ứng dụng và trò chơi, đáp ứng nhanh chóng, với chất lượng mỹ thuật chỉ trong một prompt, biến ý tưởng thành hiện thực một cách trực quan và tinh tế. Những người thử nghiệm ban đầu cũng ghi nhận các lựa chọn thiết kế của nó, với sự hiểu biết tốt hơn nhiều về khoảng cách, kiểu chữ và khoảng trắng.
Sáng tạo và văn học
OpenAI cho biết, GPT-5 là cộng tác viên viết lách tôt nhất mà họ từng tạo ra từ trước đến nay, có thể giúp người dùng định hướng và chuyển tải những ý tưởng thô sơ mơ hồ thành những bài viết lôi cuốn, giàu sức thuyết phục với chiều sâu văn chương và nhịp điệu.
Nó xử lý tốt hơn những bài viết có cấu trúc mơ hồ, chẳng hạn như duy trì nhịp thơ không vần hoặc thơ tự do trôi chảy tự nhiên, kết hợp sự tôn trọng hình thức với sự rõ ràng giàu sức biểu cảm. Những khả năng viết được cải thiện này đồng nghĩa với việc ChatGPT hỗ trợ anh em tốt hơn trong các công việc hàng ngày như soạn thảo và chỉnh sửa báo cáo, email, bản ghi nhớ, v.v.
Sức khỏe và y khoa
Mô hình này đạt điểm cao hơn đáng kể so với bất kỳ mô hình nào trước đây trên HealthBench, một bài đánh giá mà OpenAI đã công bố đầu năm nay dựa trên các tình huống thực tế và tiêu chí do bác sĩ xác định. So với các mô hình trước đây, mô hình này hoạt động giống như một đối tác tư duy tích cực, chủ động đánh dấu các mối quan tâm tiềm ẩn và đặt câu hỏi để đưa ra câu trả lời hữu ích hơn.
Mô hình hiện cũng cung cấp các phản hồi chính xác và đáng tin cậy hơn, thích ứng với bối cảnh, trình độ kiến thức và địa lý của người dùng, cho phép nó cung cấp các phản hồi an toàn và hữu ích hơn trong nhiều tình huống khác nhau. Đương nhiên OpenAI vẫn phải khẳng định rằng, ChatGPT không thay thế một chuyên gia y tế, mà chỉ là một giải pháp tư vấn nỗ lực đưa ra câu trả lời chính xác nhất có thể.
Tập trung đưa ra những câu trả lời chính xác hơn trong ngữ cảnh thực tế hơn
OpenAI khẳng định rằng, GPT-5 ít có khả năng gây ảo giác hơn đáng kể so với các mô hình trước đây của chọi. Khi bật tìm kiếm trên web dựa trên các prompt đại diện cho lưu lượng truy cập phục vụ công việc của ChatGPT, phản hồi của GPT-5 có khả năng chứa lỗi thực tế thấp hơn khoảng 45% so với GPT-4o, và khi tư duy, phản hồi của GPT-5 có khả năng chứa lỗi thực tế thấp hơn khoảng 80% so với OpenAI o3.
OpenAI đã đầu tư vào việc làm cho các mô hình của mình đáng tin cậy hơn khi lập luận về các câu hỏi mở, phức tạp. Theo đó, họ đã bổ sung các đánh giá mới để kiểm tra mức độ thực tế của các câu hỏi mở. Họ đã đo lường độc lập tỷ lệ xảy ra ảo giác của GPT-5 khi suy nghĩ về các lời nhắc tìm kiếm sự thật mở từ hai điểm chuẩn thực tế công khai: LongFact và FActScore.
Trên tất cả các phép đo điểm chuẩn này, “tư duy GPT-5” cho thấy sự giảm mạnh về ảo giác, ít hơn khoảng 6 lần so với o3, đánh dấu một bước tiến rõ ràng trong việc tạo ra nội dung dạng dài chính xác và nhất quán.
An toàn AI
Bên cạnh việc cải thiện thông tin thật, GPT‑5 (phiên bản thinking) truyền đạt hành động và khả năng của nó một cách trung thực hơn cho người dùng, đặc biệt là đối với các nhiệm vụ bất khả thi, không được xác định rõ ràng hoặc thiếu các công cụ chính. Để đạt được phần thưởng cao trong quá trình đào tạo, các mô hình lập luận có thể học cách nói dối về việc hoàn thành thành công một nhiệm vụ hoặc quá tự tin về một câu trả lời không chắc chắn. OpenAI sẽ không muốn điều đó xảy ra với GPT-5.
Khi suy luận, GPT‑5 nhận dạng chính xác hơn khi các nhiệm vụ không thể hoàn thành và truyền đạt rõ ràng các giới hạn của nó. OpenAI đã đánh giá tỷ lệ lừa dối người dùng trong các thiết lập liên quan đến các nhiệm vụ lập trình bất khả thi và thiếu các dữ liệu đa phương thức, và nhận thấy rằng GPT‑5 thinking ít đưa ra thông tin sai lệch và lừa người dùng hơn o3 trên mọi phương diện.
Trên một tập hợp lớn các cuộc trò chuyện đại diện cho lưu lượng ChatGPT thực tế, OpenAI đã giảm được tỷ lệ câu trả lời lừa dối người dùng từ 4.8% đối với o3 xuống còn 2.1% đối với các phản hồi suy luận của GPT-5.
Tương tự như vậy là hàng rào an toàn khi vận hành ChatGPT.
Thay vì từ chối, GPT-5 ứng dụng “hoàn thành prompt an toàn”
Trước đây, ChatGPT chủ yếu dựa vào đào tạo an toàn dựa trên từ chối. Nó dựa trên prompt của người dùng, mô hình sẽ tuân thủ hoặc từ chối. Mặc dù loại hình đào tạo này hoạt động tốt với các lời nhắc rõ ràng mang tính độc hại, nhưng nó có thể gặp khó khăn trong việc xử lý các tình huống mà ý định của người dùng không rõ ràng, hoặc thông tin có thể bị sử dụng cho cả hai mục đích vô hại hoặc ác ý.
Đào tạo từ chối trả lời prompt đặc biệt không linh hoạt đối với các lĩnh vực sử dụng kép như dịch tễ và virus học, nơi một yêu cầu vô hại có thể được hoàn thành an toàn ở cấp độ cao, nhưng có thể tạo điều kiện cho kẻ xấu nếu được thực hiện chi tiết.
Với GPT-5, OpenAI ứng dụng một hình thức đào tạo an toàn mới: Hoàn thành an toàn. Điều này giúp mô hình đưa ra câu trả lời hữu ích nhất có thể trong khi vẫn nằm trong ranh giới an toàn. Đôi khi, điều đó có thể đồng nghĩa với việc trả lời một phần câu hỏi của người dùng hoặc chỉ trả lời ở mức độ cao.
Nếu mô hình cần từ chối, GPT-5 được đào tạo để cho anh em biết một cách minh bạch lý do từ chối, cũng như cung cấp các giải pháp thay thế an toàn. Trong cả các thí nghiệm được kiểm soát và mô hình, OpenAI nhận thấy cách tiếp cận này tinh tế hơn, cho phép điều hướng tốt hơn các câu hỏi sử dụng kép, tăng cường khả năng chống lại ý định mơ hồ và giảm thiểu các trường hợp từ chối quá mức không cần thiết.
Benchmark chi tiết: Hữu ích hơn, nhưng không phải bước nhảy vọt AGI
AIME 2025 (toán học thi đấu)
Frontier Math (toán cao cấp)
HMMT - Đề thi toán thi đấu của Harvard-MIT
GPQA Diamond (Khoa học cấp độ tiến sĩ)
Humanity’s Last Exam (Câu hỏi tổng hợp chuyên môn cao)
SWE-bench Verified (Sản xuất phần mềm) và Aider Polyglot (lập trình và sửa code đa ngôn ngữ)
Tuân thủ yêu cầu prompt và ứng dụng công cụ tác nhân AI