DeepSeek ra mô hình AI ‘giảm nửa chi phí khi suy luận’

DeepSeek công bố mô hình V3.2-exp và cho biết đã thiết kế với khả năng giảm đáng kể chi phí suy luận khi sử dụng trong các phép toán ngữ cảnh dài.

Công bố trên nền tảng Hugging Face và GitHub ngày 29/9, V3.2-exp tích hợp các tính năng giúp giảm chi phí suy luận. Mô hình hiện trong quá trình thử nghiệm cuối và sẽ triển khai dưới dạng API (giao diện lập trình ứng dụng) cho các nhà phát triển thời gian tới.

Trong đó, quan trọng nhất là DeepSeek Sparse Attention, một hệ thống phức tạp sử dụng module riêng với nhiệm vụ ưu tiên các đoạn trích cụ thể từ cửa sổ ngữ cảnh. Một hệ thống có tên “fine-grained token selection”, tức làm nhiệm vụ lựa chọn mã thông báo (token) cụ thể từ các đoạn trích, tải vào “cửa sổ Attention” của module theo trình tự hạn chế nhằm tiết kiệm tài nguyên. Kết quả là Sparse Attention có thể xử lý chuỗi ngữ cảnh dài với máy chủ tương đối nhỏ.

Với việc xử lý ngữ cảnh dài, lợi ích của Sparse Attention được đánh giá rất đáng kể. Thử nghiệm sơ bộ của DeepSeek cho thấy chi phí của một lệnh gọi API đơn giản có thể giảm một nửa với loại ngữ cảnh này. Dù vậy, công ty cho biết có thể cần thử nghiệm thêm và đánh giá chi tiết trước khi có bản hoàn thiện cho người dùng cuối.

Giao diện đăng nhập DeepSeek trên một chiếc smartphone. Ảnh: Bảo Lâm