Kỹ thuật tạo video AI ‘gần như tức thì’

TurboDiffusion do nhóm nhà khoa học từ Đại học Thanh Hoa (Trung Quốc), Đại học California ở Berkeley (Mỹ) và công ty AI Shengshu Technology cùng phát triển. Nó có thể giảm thời gian tạo video dài 5 giây ở độ phân giải tiêu chuẩn từ hơn ba phút xuống còn 1,9 giây (tăng tốc gần 100 lần) khi thử nghiệm trên hệ thống chạy bộ xử lý đồ họa GeForce RTX 5090, mẫu GPU dành cho người tiêu dùng cá nhân của Nvidia.

Trong khi đó, nếu sử dụng GPU chuyên dụng hơn, TurboDiffusion có thể tạo video HD (1.280 x 720 pixel) dài 5 giây trong vòng 24 giây, rút ngắn so với mức 80 phút trước đó. Nghĩa là, tốc độ tạo nhanh hơn tới 200 lần.

Theo nhóm nghiên cứu, TurboDiffusion hoạt động nhanh nhờ sự đổi mới trong huấn luyện mô hình, đặc biệt là cơ chế Sparse Linear Attention. Trong đó, mô hình AI tập trung vào những phần quan trọng nhất của dữ liệu thay vì xử lý mọi thứ cùng lúc, giúp giảm đáng kể thời gian xử lý và chi phí tính toán. Nó cũng nén các tham số mô hình và hoạt động xuống 8-bit thay vì 16-bit hoặc 32-bit, từ đó giảm tiêu thụ bộ nhớ và tăng tốc tính toán.