Những cảnh như toàn cảnh từ bờ biển ra đến đại dương, hay những cảnh bắt chước dùng drone quay toàn cảnh thị trấn từ trên cao thực sự không có điểm gì để chê. Cách mô phỏng chi tiết chuyển động tự nhiên như sóng biển, hay những shot quay tĩnh, không có chủ thể lớn chuyển động trong video được tạo ra tương đối tự nhiên. Anh em thử xem những đoạn đó xem có nhặt được sạn do AI tạo sinh lỗi hay không nhé.
Nhưng khi có động vật hay chủ thể chuyển động trong khung hình, ngay lập tức nhận ra được vấn đề của Gen-3, chí ít là ở phiên bản thử nghiệm Alpha hiện giờ. Chẳng hạn như mình làm thử một đoạn clip 5 giây với câu lệnh “bay drone theo một chú mòng biển bay từ bờ biển ra tới đại dương, mỏng biển đang bay ở trung tâm video,” thì dù Gen-3 hiểu rất tốt chiều sâu hình ảnh, hay gọi là depth, thì nhận thức không gian, hay perception của AI vẫn còn lỗi. Nó không làm ra được một chú mòng biển bay song song với mặt biển, mà trái lại, nhìn cử động và vị trí của chú chim tương đối vô lý:
Mình không sử dụng đoạn clip trên vào clip ở đầu bài. Có một đoạn clip nữa cũng làm bị hỏng, đó là câu lệnh “cô gái mặc váy trắng đi bộ từ bờ biển ra xa, rồi quay lại cười với camera.” Cử động di chuyển của chủ thể nhân vật rất không khớp và không đúng với chuyển động của camera mô phỏng trong khung hình. Rồi đến cả cử động của tay và chân cũng không chân thực:
Có một yếu tố nữa anh em có thể nhận ra ngay trong đoạn clip mà mình chỉnh sửa ở đầu bài viết. Nếu như Gen-3 Alpha rất giỏi trong việc nhận diện và mô phỏng chiều sâu của video, nhưng chi tiết và logic thì còn phải chỉnh sửa nhiều. Chẳng hạn như đoạn clip đi bộ trong thị trấn cổ kính với đèn điện giăng ở trên để chiếu sáng. Ánh sáng phủ xuống con đường lát đá không chê vào đâu được, nhưng những cái bóng đèn thì lơ lửng trong không trung, không có chỗ treo và không có dây điện ở đâu hết.