OpenAI mang Sora chào bán cho các hãng phim Hollywood, muốn dùng AI thâm nhập ngành điện ảnh

Đăng lúc 21:41 25.03.2024

Nguồn tin của Bloomberg nói rằng, OpenAI đang muốn tham gia thị trường điện ảnh, với AI tạo video Sora. Cụ thể hơn, startup phát triển những mô hình trí thông minh nhân tạo trong tuần sau sẽ có những cuộc gặp mặt tại Los Angeles, thảo luận với các studio làm phim ở Hollywood, các giám đốc những tập đoàn truyền thông lớn và những agency quản lý các diễn viên nổi tiếng.

Từ đó, OpenAI muốn tạo dựng những mối quan hệ với ngành điện ảnh, giải trí và với các nhà làm phim, khuyến khích họ ứng dụng công cụ tạo video bằng AI vào các tác phẩm phim và series truyền hình.

Những tuần vừa rồi, nguồn tin nội bộ của OpenAI và những người trong ngành có liên quan đều cho rằng, OpenAI đã liên tục có những cuộc gặp gỡ đại diện của ngành điện ảnh và giải trí. Cuối tháng 2, giám đốc vận hành Brad Lightcap được cho là đã có những cuộc gặp đầu tiên với những vị giám đốc các studio phim điện ảnh và studio làm phim truyền hình, nội dung giải trí ở Los Angeles.

Ở những cuộc gặp này, Lightcap cùng các đồng sự đã trình diễn sức mạnh của AI Sora, công cụ mới nhất được OpenAI công bố cách đây vài tuần, với khả năng tạo ra những đoạn clip cực kỳ chân thực chỉ từ lệnh dạng văn bản từ người dùng. Rồi những bữa tiệc ở thời điểm tổ chức lễ trao giải thưởng Oscar của viện hàn lâm nghệ thuật điện ảnh Mỹ, nơi những nhà làm phim, những diễn viên và những người đứng đầu các studio phim lớn đều có sự góp mặt của CEO Sam Altman.

Hiện tại thì Sora vẫn chưa chính thức ra mắt dưới dạng dịch vụ trực tuyến hay mô hình phục vụ các doanh nghiệp sử dụng, dù đã được ra mắt từ hồi giữa tháng 2 vừa qua. Nhưng ngay lập tức, những đoạn clip tạo ra từ Sora đã khiến cả Silicon Valley lẫn Hollywood chú ý, vì cả chất lượng và sự chân thực của hình ảnh tạo ra trong những đoạn clip dưới 60 giây, giới hạn hiện tai của Sora.

Người phát ngôn OpenAI thì đưa ra tuyên bố chính thức: “Chiến lược của OpenAI là hợp tác với các ngành công nghiệp thông qua quá trình triển khai những tiến bộ của AI theo từng giai đoạn, để đảm bảo việc triển khai an toàn, mô tả cho mọi người ý tưởng về những gì sẽ trở thành hiện thực trong tương lai. Chúng tôi mong muốn được đối thoại liên tục với những nghệ sĩ và những nhà sáng tạo.”

Vẫn còn tranh cãi ở Hollywood

Ở Hollywood, AI là một chủ đề gây tranh cãi. Nhiều nhà làm phim và các studio đổ vốn tạo ra những tác phẩm điện ảnh hiện giờ đã tận dụng AI để phục vụ cho nhiều khâu tiền kỳ và hậu kỳ sản xuất phim, họ đều công nhận sức mạnh và tiềm năng của những công cụ AI tạo nội dung hay những thuật toán xử lý hình ảnh.

Chúng có thể gần như ngay lập tức tạo ra những nội dung văn bản, hình ảnh, âm thanh, rồi cả video ngắn chỉ từ lệnh của người dùng, không cần phải suy nghĩ thực hiện nội dung. Nhưng cùng lúc, những công nghệ này cũng dấy lên những lo ngại về nguồn sống của nhiều nghệ sĩ, từ họa sỹ hình ảnh cho tới diễn viên lồng tiếng.

Từng có thời điểm, các nhà biên kịch và các diễn viên năm ngoái đã biểu tình cũng như đình công để đòi hỏi quyền được bảo vệ trước những công nghệ mới. Cả hai công đoàn của các nhà biên kịch và các diễn viên sau đó đã có được những đảm bảo phần nào, để việc AI sử dụng trong môi trường ngành giải trí không ảnh hưởng tới nguồn sống và công việc của họ.

Marilyn Monroe hồi sinh dưới dạng AI, dấy lên câu hỏi về bản quyền hình ảnh con người sau khi mất

Soul Machine vừa công bố một chatbot AI mang tên Digital Marilyn, được thiết kế để tạo ra cảm giác người dùng đang được nhìn ngắm và nói chuyện với một trong những gương mặt nổi bật nhất của văn hóa đại chúng Mỹ thập niên 1950 đến 1960.

HocVienDaoTao.com

Các tập đoàn giải trí cũng không muốn để các đơn vị nghiên cứu AI sử dụng miễn phí những tác phẩm hình ảnh, video hay âm thanh họ đã tạo ra để huấn luyện những mô hình AI tạo nội dung. OpenAI đã có những cuộc gặp gỡ đại diện từ các tập đoàn lớn như CNN, Fox Corp hay Time Magazine để bàn về việc mua bản quyền sử dụng nội dung để huấn luyện AI.

Trước OpenAI, cả Meta lẫn Alphabet đều đã công bố những nghiên cứu về tạo video nhờ lệnh văn bản và mô hình AI. Công nghệ này cũng đang được nhiều startup AI nghiên cứu, như Runway, Pika và Stability AI. Hiện tại bên cạnh Sora, đáng kể đến nhất là Gen-2 của Runway AI.

Vì sao Sora gây ra ấn tượng mạnh với mọi người?

Đầu tiên hãy nói về cách tạo hình của AI. Hiện giờ hầu hết những mô hình AI tạo hình bằng lệnh prompt của người dùng đều kết hợp hai kiến trúc mô hình machine learning, transformer và diffusion để mô hình AI tính toán khả năng màu sắc của một điểm ảnh bất kỳ, để tạo ra tấm hình đáp ứng cả hai điều kiện, một là chính xác về chi tiết, giống “thật” nhất có thể, dựa trên những gì mô hình AI được huấn luyện, và hai là nội dung hình ảnh tuân theo yêu cầu từ lệnh prompt của người dùng.

Làm thế nào Sora AI có thể tạo video "đẳng cấp" hơn so với các mô hình trước đây?

Cách đây vài ngày OpenAI bất ngờ cho ra mắt AI tạo video từ text nhập vào khiến giới AI nói riêng và cả thế giới công nghệ nói chung "rúng động". Trên thực tế, việc tạo ra video bằng AI không quá lạ lẫm…

HocVienDaoTao.com

Nhưng khi tạo video, thì mô hình AI phải giải quyết được rất nhiều vấn đề khác, phải hiểu rất nhiều khía cạnh khác để tạo ra những đoạn clip chân thực và hợp lý nhất. Thành ra những công cụ trước kia tạo video rất quái dị và ghê rợn vì chi tiết rất không tự nhiên. Lấy ví dụ một đoạn video được kênh Pizza Later tạo ra bằng GPT-4, Midjourney tạo hình và Gen-2 biến hình ảnh thành video:

Mod Minh Đức từng có một bài rất chi tiết về cách Sora hoạt động, và lý do vì sao video demo mà nhà phát triển Sora tại OpenAI tung ra gây sốc cho toàn thế giới vì tính chân thực. Link bài đó mình gắn ngay phía trên, nếu anh em muốn đọc lại.

Còn nếu giải thích dễ hiểu cho anh em không muốn tìm hiểu sâu về transformer, diffusion hay cách AI vận hành, thì Sora cùng lúc phải hiểu và làm rất nhiều việc:

Tạo frame hình từ mô hình transformer và diffusion
Vận hành mô hình AI để mô phỏng chuyển động. Bản thân việc mô phỏng chuyển động là thứ khó dạy AI nhất, và đó cũng là thứ dễ nhận thấy nhất để phân biệt giữa video do con người làm ra và máy tính làm ra.
Hiểu rõ chi tiết hình ảnh từ các góc khác nhau hệt như một mô hình 3D, đây là chi tiết thứ nhì đánh giá chất lượng một đoạn clip do AI tạo ra, vì bên cạnh chuyển động, video thay đổi góc quay sẽ là thứ đánh giá chất lượng tạo hình 3D chứ không phải 2D của mô hình AI.
Kế đến là mô phỏng ánh sáng, chi tiết hình ảnh, đổ bóng, hình ảnh phản chiếu, cùng rất nhiều những quy luật vật lý thực tế khác để tạo ra những frame hình kết nối với nhau tự nhiên nhất. Đây cũng chính là nhược điểm lớn nhất của Sora ở thời điểm hiện tại, chẳng hạn như đoạn clip dưới đây do Sora tạo ra:

Cùng lúc xử lý nhiều khung hình video chứ không xử lý độc lập từng khung hình. Giải pháp này cho phép Sora có thể đảm bảo tính nhất quán trong chi tiết hình ảnh, tay chân của nhân vật hay những món đồ ở đúng vị trí của chúng.
Tăng chi tiết video và độ nét của video bằng cách ứng dụng tính năng Recaptioning, dùng mô hình ngôn ngữ viết lại chi tiết prompt để đưa thêm những chi tiết hợp lý vào đoạn clip tạo ra.

Theo Bloomberg