Các tập đoàn giải trí cũng không muốn để các đơn vị nghiên cứu AI sử dụng miễn phí những tác phẩm hình ảnh, video hay âm thanh họ đã tạo ra để huấn luyện những
mô hình AI tạo nội dung. OpenAI đã có những cuộc gặp gỡ đại diện từ các tập đoàn lớn như CNN, Fox Corp hay Time Magazine để bàn về việc mua bản quyền sử dụng nội dung để huấn luyện AI.
Trước OpenAI, cả Meta lẫn Alphabet đều đã công bố những nghiên cứu về tạo video nhờ lệnh văn bản và mô hình AI. Công nghệ này cũng đang được nhiều startup AI nghiên cứu, như Runway, Pika và Stability AI. Hiện tại bên cạnh Sora, đáng kể đến nhất là Gen-2 của Runway AI.
Vì sao Sora gây ra ấn tượng mạnh với mọi người?
Đầu tiên hãy nói về cách tạo hình của AI. Hiện giờ hầu hết những mô hình AI tạo hình bằng lệnh prompt của người dùng đều kết hợp hai kiến trúc mô hình machine learning, transformer và diffusion để mô hình AI tính toán khả năng màu sắc của một điểm ảnh bất kỳ, để tạo ra tấm hình đáp ứng cả hai điều kiện, một là chính xác về chi tiết, giống “thật” nhất có thể, dựa trên những gì mô hình AI được huấn luyện, và hai là nội dung hình ảnh tuân theo yêu cầu từ lệnh prompt của người dùng.
Làm thế nào Sora AI có thể tạo video "đẳng cấp" hơn so với các mô hình trước đây?
Cách đây vài ngày OpenAI bất ngờ cho ra mắt AI tạo video từ text nhập vào khiến giới AI nói riêng và cả thế giới công nghệ nói chung "rúng động". Trên thực tế, việc tạo ra video bằng AI không quá lạ lẫm…
Nhưng khi tạo video, thì mô hình AI phải giải quyết được rất nhiều vấn đề khác, phải hiểu rất nhiều khía cạnh khác để tạo ra những đoạn clip chân thực và hợp lý nhất. Thành ra những công cụ trước kia tạo video rất quái dị và ghê rợn vì chi tiết rất không tự nhiên. Lấy ví dụ một đoạn video được kênh Pizza Later tạo ra bằng GPT-4, Midjourney tạo hình và Gen-2 biến hình ảnh thành video: