AI ‘siêu thông minh’ của Trung Quốc

Phát hành giữa tuần trước tại Chiết Giang, DeepSeek V3 được mô tả có thể xử lý khối lượng lớn công việc và tác vụ thông qua văn bản đầu vào “theo cách thông minh nhất”, như mã hóa, dịch thuật, cũng như viết bài luận và email từ lời nhắc. Mô hình được phát hành miễn phí, có thể sử dụng đa mục đích, gồm cả thương mại.

DeepSeek cho biết trong các thử nghiệm nội bộ, V3 “vượt trội so với các mô hình có thể tải về hiện nay”, tính cả mã nguồn mở và nguồn đóng. Trong bản chạy thử trên Codeforces, nền tảng cho các cuộc thi lập trình, V3 vượt qua các mô hình khác như Llama 3.1 405B (405 tỷ tham số) của Meta, GPT-4o của OpenAI và Qwen 2.5 72B (72 tỷ tham số) của Alibaba.

V3 cũng đánh bại đối thủ cạnh tranh trên Aider Polyglot, bài kiểm tra được thiết kế để đo lường khả năng của các mô hình AI. Công ty giới thiệu V3 được đào tạo trên một tập dữ liệu gồm 14,8 nghìn tỷ token. Trong khoa học dữ liệu, token được sử dụng để biểu diễn các bit dữ liệu thô, với một triệu token tương đương khoảng 750.000 từ.

Không chỉ có bộ dữ liệu đào tạo đồ sộ, V3 có kích thước khổng lồ với 671 tỷ tham số, lớn hơn khoảng 1,6 lần so với Llama 3.1 405B. Tuy nhiên, DeepSeek cho biết mô hình không cần quá nhiều GPU để vận hành do sử dụng phần cứng hiệu quả.

Logo của DeepSeek và ChatGPT. Ảnh: Cloudbooklet