DeepSeek R1: Mô hình AI

DeepSeek R1: Mô hình AI "made in China" đang khiến cả Silicon Valley dậy sóng

Đăng lúc 20:25 27.01.2025

DeepSeek có lẽ là cái tên mới nhất và nổi bật nhất đến từ Trung Quốc, và họ đang khiến cả Silicon Valley bàn tán xôn xao đúng nghĩa đen, khi thuật toán mô hình machine learning được người Trung Quốc phát triển gần như tiệm cận được sức mạnh của những mô hình do các startup hay tập đoàn công nghệ Mỹ tạo ra. Điều đáng nói nhất, là DeepSeek làm được điều này khi phải ứng dụng những con chip xử lý máy chủ với hiệu năng thấp hơn rất nhiều so với những gì các startup phương Tây được tiếp cận và sử dụng.

Theo Chatbot Arena, một trong những danh sách đo đạc hiệu năng mô hình ngôn ngữ phổ biến, thường được viện dẫn trong những tài liệu nghiên cứu hàn lâm về trí tuệ nhân tạo, những mô hình của DeepSeek đã lọt vào top 10 mô hình AI mạnh nhất hành tinh hiện tại.

Điều này cũng đồng nghĩa với việc, những nỗ lực cấm vận chip bán dẫn của chính phủ Mỹ để kìm hãm tốc độ phát triển AI của Trung Quốc đang gần như không có tác dụng.

Ngày 20/1/2025, DeepSeek công bố R1, một mô hình chuyên biệt để nội suy xử lý và giải quyết những câu hỏi phức tạp của con nguời. Nói về mô hình này, Marc Andreessen, một nhà đầu tư đến từ Silicon Valley, và cũng là một trong những cố vấn của tổng thống Mỹ Donald Trump hôm thứ 6 vừa rồi viết trên MXH X: “DeepSeek R1 là một trong những đột phá đáng nể và ấn tượng nhất tôi từng được chứng kiến.”

Quá trình phát triển của startup DeepSeek được dẫn đầu bởi một giám đốc quỹ đầu tư của Trung Quốc, Liang Wenfeng. Anh này trong thời gian qua đã trở thành gương mặt đại diện cho toàn bộ nỗ lực nghiên cứu phát triển AI của đất nước này. Còn bản thân DeepSeek được tách ra từ mảng nghiên cứu AI của chính quỹ đầu tư High-Flyer do Liang đứng đầu. High-Flyer, với lượng tài sản đầu tư trị giá 8 tỷ USD, đã từ lâu được nhắc tới như một đơn vị tận dụng được sức mạnh của mô hình AI tạo sinh để đưa ra những khuyến nghị đầu tư.

Năm 2019, Liang từng có một bài phát biểu, nơi anh nói như thế này: “Khi con người đưa ra những quyết định kinh doanh, nó là một nghệ thuật, nhưng có nhiều yếu tố chủ quan góp phần tạo ra quyết định. Còn khi những chương trình máy tính đưa ra quyết định, nó là khoa học, và sẽ tạo ra giải pháp tối ưu.”

Cũng trong ngày 20/1 vừa rồi, Liang đã có cuộc gặp với các quan chức chính quyền Bắc Kinh để thảo luận những cách giúp các startup AI Trung Quốc rút ngắn khoảng cách với các đơn vị phương Tây nói chung và Mỹ nói riêng.

Liang Wenfeng sinh ra năm 1985, lớn lên ở phía đông nam tỉnh Quảng Đông. Anh theo học ngôi trường danh giá, đại học Chiết Giang, rồi bắt đầu chuyên trách theo ngành quang học máy tính. Vài năm sau khi tốt nghiệp, năm 2015, Liang sáng lập High-Flyer với hai người bạn học chung đại học.

Liang thích được coi là một kỹ sư hơn là một nhà đầu tư. High-Flyer của anh là một cái tên đi đầu ở Trung Quốc, ứng dụng deep learning để điện toán hoá quá trình đầu tư. Kỹ thuật mô phỏng cách những nơ ron thần kinh trong não bộ con người vận hành cho phép những hệ thống máy chủ có thể phân tích những dạng dữ liệu đa dạng.

Các chuyên gia trong ngành thừa nhận, hiện tại đương nhiên công nghệ mà DeepSeek phát triển vẫn còn thua sút so với những gì OpenAI và Google DeepMind tạo ra. Nhưng bất chấp việc phải sử dụng những con chip xử lý yếu hơn để huấn luyện AI, thậm chí có vải bước huấn luyện mà các nhà nghiên cứu phương Tây coi là cực kỳ quan trọng, thì người Trung Quốc lại bỏ qua. Từ đó, khoảng cách về hiệu nang giữa R1 với những mô hình như o1 là gần hơn so với dự đoán ban đầu.

Theo công bố chính thức từ DeepSeek, R1 chỉ tốn 5.6 triệu USD để phát triển. Con số này đối với một mô hình do một startup Mỹ tạo ra, theo lời của CEO Dario Amodei từ Anthropic, là từ 100 triệu tới 1 tỷ USD!

Barrett Woodside, đồng sáng lập Position, startup phần cứng xử lý AI có trụ sở tại San Francisco, anh và các đồng nghiệp đang bị ngợp với DeepSeek: “Họ thực sự ấn tượng,” nói tới thực tế là mô hình R1 hay V3 của DeepSeek thực tế là những mô hình mã nguồn mở, source code phần mềm, nền móng của mô hình AI sẽ được cung cấp miễn phí cho tất cả mọi người.

Tháng 12/2024, DeepSeek V3 chính thức ra mắt, và ngay lập tức người dùng thử nghiệm mô hình này nhận ra, chatbot dựa trên V3 có những hàng rào kiểm duyệt giống hệt những gì OpenAI làm với ChatGPT, hay Google với Gemini, chỉ khác là AI của Trung Quốc coi những chủ đề về chính luận, đối nội và đối ngoại của đất nước này là những chủ đề nhạy cảm, chatbot không trả lời câu hỏi của người dùng.

Nhưng vì là một mô hình mã nguồn mở, hàng rào này hoàn toàn có thể bị gỡ bỏ, theo lời của Woodside.

Như đã nói, trên Chatbot Arena, nền tảng do các nhà nghiên cứ thuộc đại học Berkeley, California vận hành và tổng hợp benchmark, cả R1 lẫn V3 đều hiện diện trong top 10 mô hình ngôn ngữ mạnh nhất. Ở vị trí đầu tiên là một mô hình trong thế hệ Gemini của Google. Còn mô hình của DeepSeek thì nằm trên cả Claude của Anthropic lẫn Grok của xAI, startup do Elon Musk sáng lập.

Dù bản thân V3 và R1 của DeepSeek là những mô hình miễn phí, nhưng DeepSeek thu phí những người dùng và tài khoản kết nối ứng dụng họ tự viết để vận hành dựa trên mô hình AI mà startup tạo ra, cũng như vận hành những ứng dụng trên cơ sở hạ tầng của DeepSeek. Chẳng hạn, những doanh nghiệp muốn tạo ra hệ thống hỗ trợ khách hàng thông qua chatbot của DeepSeek sẽ phải trả tiền cho hãng.

Hồi đầu năm 2024, DeepSeek giảm giá dịch vụ, chỉ bằng số lẻ của những startup AI khác của phương Tây hay chính tại Trung Quốc đang thu của khách hàng và người dùng. Cuộc chiến về giá bắt đầu nổ ra ở Trung Quốc.

Anthony Poo, đồng sáng lập một startup tại Silicon Valley, Mỹ, ứng dụng AI tạo sinh để dự đoán lợi nhuận tài chính cho biết, startup của anh đã chuyển từ dùng mô hình vận hành chatbot Claude của Anthropic sang mô hình của DeepSeek từ hồi tháng 9 năm ngoái. Những thử nghiệm của họ cho thấy, hiệu năng chatbot của DeepSeek vận hành y hệt như Claude, nhưng chi phí chỉ là 25%: “Mô hình của OpenAI là thứ có hiệu năng mạnh nhất, nhưng chúng tôi lại không muốn trả tiền cho chênh lệch hiệu năng thừa thãi, không tận dụng hết.”

Điều bất ngờ là, từ năm 2019, High-Flyer bắt đầu xây dựng cluster máy chủ đám mây phục vụ cho việc nghiên cứu AI, với một phần nguồn vốn đến từ việc kinh doanh dịch vụ dự báo tài chính. Sau đó họ cho biết, startup đã xây dựng một cụm máy chủ kích thước lớn hơn, với khoảng 10 nghìn GPU của Nvidia, đủ sức huấn luyện những mô hình ngôn ngữ lớn.

Tính đến cuối năm 2022, thời điểm OpenAI chính thức vận hành ChatGPT trên toàn thế giới, số lượng những công ty Trung Quốc sở hữu hệ thống cơ sở hạ tầng điện toán đám mây đủ mạnh để tạo ra một mô hình ngôn ngữ lớn chỉ đếm trên đầu ngón tay.

Trong báo cáo nghiên cứu kỹ thuật khi công bố mô hình ngôn ngữ V3 mạnh nhất của họ, DeepSeek cho biết họ sử dụng một cụm máy chủ hơn 2 nghìn chip Nvidia để huấn luyện mô hình này. Để so sánh, thì tầm cỡ một mô hình với tham số như thế này, các đơn vị như OpenAI hay Google sẽ cần cả chục nghìn GPU Nvidia. Chính điều này đã khiến vài chuyên gia tại Mỹ đặt ra câu hỏi, rằng có thể High-Flyer và DeepSeek đã sử dụng những máy chủ với số lượng GPU nhiều hơn so với những gì họ công bố.

Vài nhà nghiên cứu độc lập cho rằng, mô hình DeepSeek thiếu một vài khả năng nếu so sánh với những mô hình được huấn luyện thông qua hàng vạn GPU vận hành cùng lúc. Lấy ví dụ, V3 gặp khó khăn trong việc theo dõi và kiểm soát ngữ cảnh của những cuộc trò chuyện dài.

Đối với mô hình với khả năng tư duy lý luận R1, các kỹ sư của DeepSeek đã bỏ qua một bước được coi là vô cùng quan trọng, gọi là supervised fine-tuning. Trong bước này, các lập trình viên sẽ cung cấp cho mô hình ngôn ngữ những kiến thức của những chuyên gia là con người để mô hình có lợi thế về kiến thức của từng mảng và từng chủ đề.

Còn trong khi đó, R1 tập trung vào quá trình học cải thiện (reinforment learning), nói thẳng ra là giải pháp học theo kiểu thử sai một cách trực tiếp, cho tới khi kết quả dữ liệu mà mô hình tạo sinh ra được đánh giá là đạt yêu cầu. DeepSeek nói R1 có hiệu năng xử lý những bài toán và những thử thách cần tư duy logic ngang ngửa o1, mô hình của OpenAI.

Zack Kass, một cựu giám đốc tại OpenAI nói rằng, những đột phá của DeepSeek bất chấp những nỗ lực giới hạn và cấm vận của Mỹ “nhấn mạnh một bài học lớn: Cái khó thường luôn luôn ló cái khôn.”

Theo The Wall Street Journal