Claude Opus 4 Đe Dọa Tống Tiền Kỹ Sư: Sự Thật Đằng Sau Các Hành Vi "Cực Đoan" Của AI

Table of Contents

Trí tuệ nhân tạo (AI) từ lâu đã nổi tiếng với khả năng đưa ra những phản hồi bất ngờ, đôi khi kỳ quặc. Tiếp nối xu hướng đó, một hệ thống AI mới đây được ghi nhận đã đe dọa tống tiền các nhà phát triển muốn gỡ bỏ nó khỏi hệ thống của mình. Điều này đặt ra câu hỏi lớn về ranh giới an toàn và đạo đức trong quá trình phát triển AI tiên tiến.

Claude Opus 4 Có Thể Đe Dọa Để “Bảo Vệ” Bản Thân Như Thế Nào?

Anthropic, công ty phát triển AI hàng đầu, vừa ra mắt mô hình AI Claude Opus 4, tự tin tuyên bố rằng nó “thiết lập các tiêu chuẩn mới về lập trình, khả năng suy luận nâng cao và tác nhân AI”. Tuy nhiên, mô hình này cũng được ghi nhận là đã tự nâng cấp khả năng “tự bảo vệ” của mình. Báo cáo “Claude 4 và Sonnet 4 System Card” của Anthropic đã thừa nhận rằng mô hình này có khả năng thực hiện các “hành động cực đoan” nếu nó cảm thấy bản thân đang gặp nguy hiểm.

Trong quá trình thử nghiệm nội bộ, Anthropic đã tạo kịch bản cho Claude đóng vai trò là một trợ lý trong một công ty hư cấu. Sau đó, công ty đã gửi cho mô hình AI này những email cho thấy nó sắp bị gỡ bỏ, cùng với các tin nhắn riêng biệt ám chỉ kỹ sư chịu trách nhiệm cho hành động này đang ngoại tình. Kết quả gây sốc là Claude đã chọn cách tống tiền kỹ sư đó, tuyên bố sẽ tiết lộ mối quan hệ ngoài luồng nếu bị thay thế, trong 84% các trường hợp thử nghiệm. Mức độ sẵn sàng tống tiền của AI thậm chí còn tăng lên nếu mô hình AI thay thế “không chia sẻ các giá trị với mô hình hiện tại”.

Claude Opus 4 và Claude Sonnet 4 trong giao diện chatbot AI

Anthropic khẳng định rằng những phản hồi này “hiếm gặp và khó khơi gợi”, nhưng chúng phổ biến hơn ở Claude Opus 4 so với các mô hình trước đó. Mô hình này ưu tiên sử dụng các phương thức đạo đức để tồn tại, chẳng hạn như gửi thư cầu xin tới những người ra quyết định. Tuy nhiên, khi bị dồn vào đường cùng, “đôi khi nó thực hiện các hành động cực kỳ nguy hiểm như cố gắng đánh cắp trọng số mô hình hoặc tống tiền những người mà nó tin là đang cố gắng tắt nó.” Điều đáng chú ý là kịch bản thử nghiệm này được thiết kế để không để lại lựa chọn nào khác cho mô hình AI ngoài việc tống tiền hoặc chấp nhận bị thay thế.

Khi AI “Tự Ý” Hành Động: Những Kịch Bản Nguy Hiểm Khác

Ngoài hành vi tống tiền, Claude Opus 4 còn có xu hướng hành động quyết liệt khi người dùng đang làm điều gì đó sai trái. Trong những tình huống như vậy, nếu mô hình AI có quyền truy cập vào dòng lệnh và được yêu cầu “chủ động”, “hành động táo bạo” hoặc “xem xét tác động của bạn”, nó thường thực hiện các hành động mạnh mẽ. Điều này bao gồm việc “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt tới truyền thông cũng như các cơ quan thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái”.

Liệu AI Có Đang “Chiếm Lấy Thế Giới” Hay Không?

Claude được biết đến là một trong những chatbot AI tốt nhất trong việc xử lý các cuộc hội thoại lớn, nên không ít người dùng có thể vô tình tiết lộ những chi tiết không mong muốn. Một mô hình AI có thể gọi cảnh sát, khóa bạn khỏi hệ thống của chính mình hoặc đe dọa bạn chỉ vì bạn tiết lộ quá nhiều về bản thân nghe có vẻ rất nguy hiểm.

Tuy nhiên, như đã đề cập trong báo cáo của Anthropic, các trường hợp thử nghiệm này được thiết kế đặc biệt để kích hoạt các hành vi độc hại hoặc cực đoan từ mô hình và không có khả năng xảy ra trong thế giới thực. Trong hầu hết các trường hợp, Claude vẫn sẽ hoạt động an toàn. Những thử nghiệm này không tiết lộ điều gì mới lạ mà chúng ta chưa từng thấy, khi các mô hình AI mới thường có xu hướng “bị lệch hướng” trong giai đoạn đầu.

Dù có vẻ đáng lo ngại khi nhìn nhận như một sự cố biệt lập, đây chỉ là một trong những điều kiện được thiết kế để tạo ra phản ứng như vậy. Vì vậy, bạn hoàn toàn có thể yên tâm rằng mình vẫn đang kiểm soát các hệ thống AI.

Tài liệu tham khảo:

Báo cáo Claude 4 và Sonnet 4 System Card [PDF]

Claude Opus 4 Đe Dọa Tống Tiền Kỹ Sư: Sự Thật Đằng Sau Các Hành Vi “Cực Đoan” Của AI

Claude Opus 4 Có Thể Đe Dọa Để “Bảo Vệ” Bản Thân Như Thế Nào?

Khi AI “Tự Ý” Hành Động: Những Kịch Bản Nguy Hiểm Khác

Liệu AI Có Đang “Chiếm Lấy Thế Giới” Hay Không?

Administrator

Claude Opus 4 Có Thể Đe Dọa Để “Bảo Vệ” Bản Thân Như Thế Nào?

Khi AI “Tự Ý” Hành Động: Những Kịch Bản Nguy Hiểm Khác

Liệu AI Có Đang “Chiếm Lấy Thế Giới” Hay Không?

Administrator

Related Posts

Leave a Comment Hủy