Đăng lúc
22:20 05.01.2026
OpenAI đang chuẩn bị một bước chuyển khá lớn sang thế giới “voice-first”, với kế hoạch ra mắt mô hình ngôn ngữ âm thanh (audio language model) mới trong quý 1/2026, rồi tiến tới các thiết bị phần cứng tập trung vào giao tiếp bằng giọng nói vào khoảng 2027. Bên trong công ty, nhiều nhóm kỹ sư, nghiên cứu và sản phẩm đã được gom lại thành một hướng đi chung cho audio, vì họ đánh giá mô hình giọng nói hiện tại vẫn thua kém mô hình văn bản về cả độ chính xác lẫn tốc độ. Dữ liệu sử dụng cũng cho thấy đa số người dùng vẫn gõ chữ với ChatGPT, rất ít người chọn nói, và OpenAI muốn thay đổi thói quen đó bằng một trải nghiệm thoại tự nhiên, nhanh và “giống người” hơn.
Mô hình audio mới được kỳ vọng không chỉ đọc giọng mượt mà hơn, giàu cảm xúc hơn, mà còn có thể xử lý hội thoại chồng lấn, ngắt lời, phản ứng gần như thời gian thực, thay vì kiểu chờ nói xong rồi mới trả lời như các trợ lý ảo cũ. Đây là bước đệm cho một “hệ” thiết bị vật lý mà giao diện chính là âm thanh: loa thông minh không màn hình, kính hoặc wearable có mic và loa, hay những gadget nhỏ luôn ở bên bạn để trò chuyện bất cứ lúc nào. OpenAI không phải người duy nhất đi theo hướng này; Google, Meta, Amazon cũng đang đẩy mạnh R&D cho các thiết bị và công nghệ dựa trên giọng nói, như kính thông minh hay trợ lý AI thế hệ mới.
Sự chuyển dịch này diễn ra sau “kỷ nguyên Alexa/Google Assistant/Siri”, vốn từng rất rầm rộ nhưng bị giới hạn bởi mô hình lệnh cố định, dễ gây hụt hẫng khi đi ra ngoài kịch bản quen thuộc. Với nền tảng mô hình ngôn ngữ lớn, các sản phẩm mới có tiềm năng trò chuyện linh hoạt, hiểu ngữ cảnh tốt hơn và xử lý tác vụ phức tạp hơn, nhưng đồng thời cũng kéo theo rủi ro về quyền riêng tư, thiết bị luôn lắng nghe và sự phụ thuộc vào AI trong đời sống hàng ngày. Một số nhà thiết kế như Jony Ive còn hy vọng thiết bị giọng nói sẽ “ít gây nghiện” hơn màn hình vì không ép người dùng dán mắt liên tục, nhưng đây mới là niềm tin thiết kế chứ chưa có bằng chứng khoa học thật sự rõ ràng.
Nguồn: Ars Technica