Microsoft công bố kết quả nghiên cứu, cho thấy rằng dù chỉ vận hành dựa trên 3.8 tỷ tham số, nhưng hiệu năng tạo sinh nội dung của Phi-3 Mini không hề thua kém quá xa so với GPT-3.5, công cụ vận hành phiên bản miễn phí của ChatGPT, vận hành dựa trên hơn 175 tỷ tham số, cũng như mô hình Mixtral 8x7B của startup Pháp Mistral.
Bản thân CEO OpenAI, Sam Altman cũng từng giải thích như thế này. Hầu hết thời gian, những
mô hình ngôn ngữ vận hành trên tổng tham số càng lớn thì càng hiểu rõ câu hỏi và lệnh của người dùng, vì tham số là giá trị quyết định cách mô hình AI xử lý và tạo sinh văn bản và nội dung. Nhưng tham số càng lớn thì yêu cầu sức mạnh xử lý sẽ càng cao. Tuy nhiên không phải lúc nào quy luật cũng rõ ràng như vậy.
Những mô hình kích thước khủng như GPT-4 của OpenAI hay Claude 3 Opus của Anthropic vận hành dựa trên hàng trăm tỷ tham số, và chúng cần tới sức mạnh của cả những hệ thống data center khổng lồ, không chỉ để vận hành mà còn phục vụ hàng triệu người dùng cùng một lúc. Còn với những mô hình AI xử lý local, đột phá của các nhà nghiên cứu được tạo ra trong quá trình tinh chỉnh cơ sở dữ liệu đầu vào để huấn luyện mô hình AI.
Kết quả, Phi-3 Mini với 3.8 tỷ tham số có hai phiên bản. Một trong số đó có khả năng hiểu được ngữ cảnh 4000 token do người dùng nhập. Phiên bản còn lại hiểu được ngữ cảnh tối đa 128 nghìn token văn bản. Microsoft giải thích việc mô hình AI “cỡ nhỏ” nhưng có hiệu năng so sánh được với những AI với tham số gấp cả trăm lần: “AI được huấn luyện dựa trên những dữ liệu giống hệt như sách giáo khoa, từ những văn bản và tài liệu có chất lượng, giải thích mọi thứ cực kỳ chi tiết, nên việc tạo ra mô hình ngôn ngữ có thể đọc và hiểu những nội dung nhập liệu cũng dễ hơn rất nhiều.”
Về mặt ứng dụng, không loại trừ khả năng Phi-3 Mini hoàn toàn có thể được tích hợp vào những ứng dụng trên Android, trên iOS của Copilot, hay chính bản thân những chiếc laptop chạy Windows để xử lý chatbot hoặc trợ lý ảo xử lý local, miễn là thiết bị có cụm nhân NPU tăng tốc xử lý machine learning.
Theo Techspot