Tạo video bằng AI Trung Quốc: Kling AI vừa mở cửa toàn cầu, làm clip miễn phí
Đăng lúc
22:37 28.07.2024
Ngày 24/7, Kuaishou Technology của Trung Quốc cuối cùng cũng mở cửa thử nghiệm mô hình tạo sinh hình ảnh và video do chính họ phát triển mang tên Kling AI. Trước đó nếu như muốn tạo ra những đoạn clip ngắn dài khoảng 5 giây theo yêu cầu, người dùng sẽ phải có tài khoản gán với số điện thoại Trung Quốc, tức là quá trình thử nghiệm mô hình này chỉ dành cho những người đang sinh sống ở Đại Lục. Còn tới hôm qua 24/7, Kling AI đã mở cho tất cả mọi người trên toàn thế giới sử dụng, không cần số điện thoại nữa.
Nhưng khi mới mở cửa thử nghiệm rộng rãi, hôm qua mình không tài nào xếp hàng để tạo ra những đoạn phim ngắn được, ứng dụng nền web lúc nào cũng đứng ở đoạn 98% khi chờ máy chủ xử lý những câu lệnh văn bản mà mình gõ vào ô prompt trong giao diện làm việc với Kling AI. Mãi đến sáng nay máy chủ mới bớt quá tải, nhưng để làm ra những đoạn clip dài 5 giây, chất lượng thấp và nội suy tốc độ cao (theo lời nhà phát triển), cũng phải mất từ 3 đến 5 phút chờ đợi.
Thêm một điều nữa, đăng ký tài khoản xong, mỗi ngày anh em sẽ có 66 token để tạo video bằng mô hình AI, hết cũng không nạp tiền dùng tiếp được, phải đợi sang ngày hôm sau. Thành ra mình cũng chỉ kịp làm được 5 đoạn video cùng một chủ đề, ghép lại với nhau bằng Capcut rồi chèn nhạc, chèn cắt cảnh và chuyển cảnh, rồi chèn thêm âm thanh cho video phần nào chân thực hơn:
Mình mạnh dạn đưa ra dự đoán rằng, Kling AI đang được xử lý bằng những máy chủ đám mây trang bị chip xử lý AI của Huawei, Ascend 910B chẳng hạn. Lý do là ở thời điểm hiện tại, Nvidia H20, phiên bản GPU được Nvidia phát triển riêng cho thị trường Trung Quốc vẫn chưa giao tới tay các đơn vị nghiên cứu AI hay những tập đoàn công nghệ lớn ở thị trường Đại Lục. Vậy nên so sánh với tốc độ chờ đợi làm hình ảnh và video của một giải pháp khác mình từng có cơ hội trải nghiệm, là Gen 3 Alpha của RunwayML, tốc độ chậm hơn khá nhiều, có khi phải đợi gấp đôi thời gian để máy chủ làm ra một đoạn video chỉ dài có 5 giây, độ phân giải 720p.
Nhưng đấy chỉ là những dự đoán chứ không phải phàn nàn, vì với Gen 3 Alpha, mình phải bỏ tiền mua tài khoản sử dụng, mà cũng có giới hạn tạo video hàng ngày, còn hiện giờ Kling AI đang thử nghiệm hoàn toàn miễn phí. Không loại trừ khả năng chính những đoạn video mà mình cùng hàng trăm nghìn người khác trên toàn thế giới tạo ra trong hai ngày qua sẽ được ứng dụng để hoàn thiện mô hình AI hình ảnh này, để phiên bản chính thức vận hành hoàn hảo nhất.
Đáng lẽ ra hôm qua là mình đã có những đánh giá và trải nghiệm Kling AI rồi, nhưng như đã giải thích, ngồi đợi tới tối mà vẫn chưa làm được đoạn video nào để đánh giá khả năng của mô hình AI do người Trung Quốc phát triển ra. Thành ra tối qua mình có gửi tới anh em một giải pháp khác cũng đến từ các nhà nghiên cứu của Kuaishou Technology, nhưng là một giải pháp ghép hình bằng AI để tạo hình ảnh động kết hợp cùng những nhà nghiên cứu tại trường đại học Phục Đán, Thượng Hải, Trung Quốc:
LivePortrait: Ghép cử động gương mặt vào hình ảnh, rất nhanh, tiềm năng hơi đáng sợ
Có vẻ như nếu chỉ không cập nhật thông tin về những giải pháp AI mới, chúng ta sẽ ngay lập tức trở nên lỗi thời, vì tốc độ phát triển cũng như hoàn thiện công nghệ của những thuật toán AI, đặc biệt là ở mảng AI tạo sinh và phân tích hình ảnh…
HocVienDaoTao.com
Đến hôm nay thì cũng đã được trải nghiệm Kling AI rồi, nên cũng có vài đánh giá về giao diện, về khả năng “nghe lời” theo câu lệnh và mức độ tự do trong từng đoạn clip tạo ra dựa trên yêu cầu của người dùng, ở đây là mình.
Đầu tiên, trước khi bắt đầu làm video, có lẽ cũng cần phải học lại cách viết prompt vì làm video tạo sinh bằng AI hơi khác một chút xíu so với tạo hình bằng Stable Diffusion hay những công cụ tạo hình khác. Lý do là anh em có thể yêu cầu mô hình AI “đẻ” ra những khung hình theo đúng yêu cầu, không chỉ kiểm soát được chi tiết hình ảnh, khẩu độ ống kính, chi tiết xung quanh, ánh sáng, tông màu chung của cả đoạn clip…
Anh em sẽ còn cần phải học cách ra lệnh cho mô hình AI “tạo ra những cú máy” như thế nào, quay cận hay quay toàn, đánh ống kính ra sao, máy quay theo sát chủ thể hay không, rồi góc máy ở trên đầu, ngang vai hay dưới thấp đánh lên… Một điều rất hay của những mô hình tạo sinh video, đó là dữ liệu đầu vào không hề thiếu để huấn luyện mô hình nhận diện góc máy, vị trí ống kính hay cắt cảnh ra sao.
Anh em muốn dùng thử Kling AI, thì mình có một đường link rất hay của RunwayML, hướng dẫn chọn tông màu, góc quay, máy chạy theo chủ thể và những chi tiết môi trường để có thể tạo ra những đoạn video ưng ý nhất: Hướng dẫn prompt tạo video Gen 3 Alpha.
Nhưng đổi lại, không giống như tạo hình bằng AI như khi anh em xài Stable Diffusion hay Midjourney, đó là cứ một lần gõ prompt là một lần “tốn tiền”. Chí ít thì bây giờ Kling AI vẫn còn được dùng miễn phí, nhưng để tránh quá tải, mỗi người cũng chỉ có chừng 6 lần tạo clip mỗi ngày, muốn bỏ tiền cũng không được, phải đợi sang ngày hôm sau mới reset token để được làm tiếp.
Cái screenshot trên đây chính là một ví dụ mình tính toán sai prompt tạo video. Ban đầu muốn làm một clip dạng montage chạy xe hơi màu đỏ, nhưng lại quên gõ màu sắc chiếc ô tô vào ô prompt, thế là mặc định xe màu xám trắng. Thế là không bỏ vào video chỉnh sửa thêm âm nhạc âm thanh được. Nhưng vẫn nên khoe lên đây bởi vì kết quả mô tả khá đúng thực tế khả năng của Kling AI.
Mình nhận ra một điều, đó là tất cả những đoạn video do AI tạo ra, dù công cụ là Sora, Gen 3 hay Kling AI, thì chuyển động cũng có phần chậm rãi chứ không thể tạo ra những đoạn clip 5 đến 10 giây với nhịp độ rất cao được. Hoặc nếu có làm được, chẳng hạn như những đoạn clip vận động viên thể dục dụng cụ, thì hình ảnh con người cũng rất quái dị, không hề giống giải phẫu và logic bình thường. Tốc độ clip càng chậm thì mô hình mô phỏng vật lý và chiều sâu vật thể của những AI tạo video làm việc càng chính xác.
Một ví dụ khác của việc video AI tạo ra bây giờ thường có tốc độ thấp. Mình gõ prompt đại ý là “máy quay đuổi theo chiếc xe đua màu đỏ chạy ở tốc độ cao trên đường phố về đêm.” Nhưng mà tốc độ trông không cao cho lắm:
Cũng là câu chuyện vật thể chuyển động, chẳng hạn như bánh xe, nếu cố tình chấp niệm rằng tốc độ quay của bánh xe khớp với tốc độ màn trập nên trông nó có vẻ đứng yên, hay là “bánh xe drift đang bó phanh nên trông như thế.” Nhưng không thể phủ nhận một sự thật là, khả năng tạo hình ảnh chuyển động của những mô hình AI hiện giờ, trong đó có cả Kling AI, vẫn chưa thực sự hoàn hảo:
Chi tiết thứ hai cần để ý, đó là nếu chủ thể là con người hay vật thể, bề mặt nhiều chi tiết, chắc chắn sẽ xảy ra tình trạng không đồng nhất và không mượt về chi tiết. Chẳng hạn như cảnh chân người bước đi, rõ ràng là đôi giày trông sai sai. Đổi lại, mô phỏng không gian của Kling AI khá ổn, không bị phi logic. Có một chi tiết mình thấy khá hay, là hình ảnh phản chiếu trên những bề mặt bóng được tạo sinh ở mức độ chân thực tương đối, và kết hợp được cả với ánh sáng tổng thể của đoạn clip:
Những cũng có lúc, mô phỏng trông hơi oái oăm, đặc biệt là những cảnh cần chủ thể con người tương tác với vật thể, chẳng hạn như đoạn này, mình đã gõ lệnh là “cô gái mở cửa xe”, nhưng chẳng hiểu sao lại thành đóng cửa xe và chủ thể đi mất. Để có thời gian mình sẽ đọc lại prompt, có thể do mình mô tả chưa đủ kỹ. Và anh em cũng hãy để ý hình ảnh phản chiếu trên thân xe, nhìn rất kỳ dị:
Tổng kết lại, Kling AI có lợi thế là rất dễ sử dụng, lấy điều kiện anh em đã có kinh nghiệm làm video bằng AI trước đó. Còn nếu chưa, thì sẽ là những lần thử sai liên tục để tìm ra những góc máy hoàn hảo nhất đúng theo yêu cầu. Đấy cũng là lý do mình chia sẻ với anh em đường link tài liệu hướng dẫn viết prompt tạo video bằng văn bản của RunwayML, vì mình nghĩ đó là một tài liệu rất có giá trị.
Còn về mặt chi tiết hình ảnh, độ chính xác của hình ảnh, chất lượng hình ảnh và tính logic của những đoạn video ngắn Kling AI tạo ra, mình nhận thấy nó không khác biệt quá nhiều so với Gen 3 Alpha của RunwayML. Còn hình ảnh của Sora thì cũng mới chỉ được đánh giá dựa trên những tác phẩm do những cá nhân và đơn vị được OpenAI cho sử dụng thử nghiệm, chưa thể dùng những tác phẩm clip ngắn đó để đánh giá chất lượng tạo sinh video.
Kling AI không vượt trội hơn hẳn so với những mô hình AI tạo video của người Mỹ tạo ra, đó chưa hẳn đã là nhận xét mang tính tiêu cực. Anh em đừng quên hiện giờ tỷ lệ những nhà nghiên cứu phát triển AI Trung Quốc đang chiếm tỷ lệ cao nhất thế giới. Tốc độ nghiên cứu phát triển có lẽ sẽ chỉ bị giới hạn bởi sức mạnh điện toán của những cụm data center ở đất nước này. Mà thậm chí có khi họ sẽ tìm ra được những cách để nội suy dữ liệu bằng mô hình ngôn ngữ nhanh hơn, ngốn ít VRAM HBM hơn và tiết kiệm chi phí hơn, vì những giới hạn mà người Trung Quốc đang phải chịu do những quy định cấm vận của Mỹ.
Cuối cùng, mời anh em xem một cái MV tạo hoàn toàn bằng AI. Người làm MV này tạo hình bằng Stable Diffusion và Midjourney, rồi sau đó bỏ vào những công cụ tạo video từ hình ảnh như DreamMachine, Gen 3 Alpha và cả Kling AI nữa.