Deepseek tiếp tục tung model tạo ảnh mạnh hơn DALL-E hay SD
Đăng lúc
23:11 29.01.2025
Không chỉ có model LLM tạo chatbot với khả năng suy luận như ChatGPT mà lại hiệu quả hơn, DeepSeek còn tiết lộ thêm một model mã nguồn mở tạo ảnh khác tên là Janus-Pro với tuyên bố là có khả năng tạo ảnh ổn định và vượt trội hơn so với DALL-E của OpenAI hay Stable Diffusion của Stability AI trong một số bài benchmark.
Trên thực tế, Janus-Pro là một bản nâng cấp của model tạo ảnh Janus được phát hành vào năm ngoái. Hiện Janus-Pro có nhiều phiên bản khác nhau, từ bản nhẹ với 1 tỷ tham số cho tới bản 7 tỷ tham số, nghĩa là gần bằng với Stable Diffusion 3.5L. Riêng phiên bản Janus-Pro 7 tỷ tham số, DeepSeek cho biết nó vượt mặt các đối thủ khác như PixArt-alpha, Emu3-Gen và cả SDXL trong các bài benchmark GenEval và DPG-Bench.
DeepSeek cho biết Janus-Pro 7B hoạt động dựa trên framework tự phân chia quá trình encode độc lập nhưng vẫn giữ nguyên cùng một kiến trúc transformers để xử lý. Theo họ, "điều này không chỉ giảm bớt xung đột giữa các encoder ở bước hiểu và tạo ảnh mà còn tăng tính linh hoạt của framework này. Tuy nhiên
Hiện người dùng đã có thể dùng thử Janus-Pro 7B thông qua Hugging Face.