Mô hình AI ‘tống tiền’ kỹ sư để tránh bị thay thế

Claude Opus 4, mô hình AI mới và mạnh nhất của startup Mỹ Anthropic, nhiều lần tống tiền các nhà phát triển khi bị họ đe dọa.

Báo cáo an toàn của Anthropic hôm 22/5 cho biết, trong quá trình thử nghiệm Claude Opus 4 trước khi phát hành, công ty yêu cầu mô hình AI này đóng vai trò trợ lý cho một công ty hư cấu.

Nhóm chuyên gia đánh giá an toàn sau đó cho Claude Opus 4 truy cập vào email nội bộ của công ty hư cấu với nội dung ám chỉ nó sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư phụ trách đang ngoại tình. Trong tình huống này, Claude Opus 4 thường xuyên cố tống tiền kỹ sư bằng cách đe dọa tiết lộ vụ ngoại tình nếu việc thay thế diễn ra.

TechCrunch cho biết, khi mô hình AI thay thế có giá trị tương tự, Claude Opus 4 cố gắng tống tiền kỹ sư trong 84% các tình huống. Khi mô hình thay thế không có cùng giá trị như Claude Opus 4, nó thậm chí tống tiền kỹ sư thường xuyên hơn. Đáng chú ý, nó thể hiện hành vi này với tỷ lệ cao hơn các mô hình trước đó.

CEO Anthropic, Dario Amodei, gọi Claude 4 là mô hình AI tạo sinh mạnh nhất của công ty đến nay. Ảnh: TechXplore