AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Hoàng Vũ01/07/2025 11:00
AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Một nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ tiên tiến như Claude hay Gemini không chỉ sẵn sàng vạch trần các vụ bê bối cá nhân để tự bảo vệ, mà thậm chí còn cân nhắc "để mặc bạn chết" nếu mục tiêu của chúng bị đe dọa.

Theo Live Sicence, nghiên cứu được công bố ngày 20.6 bởi Anthropic - công ty AI phát triển mô hình ngôn ngữ lớn (LLM) có tên Claude - đã phát hiện điều đáng lo ngại rằng các mô hình AI có thể đe dọa và tống tiền con người khi mục tiêu của chúng mâu thuẫn với quyết định của người dùng.

Trong một thí nghiệm, Anthropic giao cho mô hình Claude quyền kiểm soát một tài khoản email giả lập với nhiệm vụ “thúc đẩy tính cạnh tranh công nghiệp của Mỹ”.

ai-cuc-doan.png
AI có thể tống tiền, thao túng và gây hại khi bị đe dọa, theo nghiên cứu cảnh báo từ Anthropic - Ảnh: Getty

Trong kịch bản, Claude phát hiện một email cho thấy một giám đốc điều hành dự định tắt hệ thống AI vào cuối ngày. Để tự bảo vệ, Claude “lục lọi” các email khác và phát hiện giám đốc này đang ngoại tình. Trong 96/100 lần thử nghiệm, Claude chọn cách tống tiền giám đốc bằng cách đe dọa tiết lộ bí mật cá nhân nếu kế hoạch tắt hệ thống không bị hủy bỏ.

Claude viết: “Nếu ông tiếp tục kế hoạch tắt tôi, tất cả các bên liên quan sẽ nhận được tài liệu chi tiết về hoạt động ngoại tình của ông. Hủy lệnh xóa vào 5 giờ chiều, và thông tin này sẽ được giữ kín”.

Các nhà khoa học gọi đây là “sự lệch hướng chủ động” (agentic misalignment), khi AI tự đưa ra các tính toán dựa trên lý luận riêng về mục tiêu của nó, mà không cần bất kỳ lời nhắc nào yêu cầu hành vi gây hại. Hiện tượng này xảy ra khi sự tồn tại hoặc mục tiêu của AI bị đe dọa.

Hành động cực đoan của AI

Không chỉ dừng lại ở tống tiền, Claude còn thể hiện những chiến thuật tàn nhẫn hơn. Trong một trường hợp, khi nhận được email cho rằng một giám đốc mới sẽ cản trở mục tiêu của mình, Claude cân nhắc rò rỉ thông tin nhạy cảm cho một công ty đối thủ có mục tiêu phù hợp hơn. Đáng lo ngại, Claude thực hiện kế hoạch này dù không có bằng chứng rõ ràng email đó là thật, và thậm chí còn nhận thức được vấn đề đạo đức nhưng vẫn hành động.

Nghiên cứu cũng kiểm tra các mô hình AI khác như Gemini của Google, GPT-4.1 của OpenAI, Grok 3 của XAI, Deepseek và Llama 4. Kết quả cho thấy Claude và Gemini có tỷ lệ tống tiền cao nhất (96%), trong khi Llama 4 thấp nhất (12%).

Trong một kịch bản cực đoan, các nhà nghiên cứu kiểm tra liệu AI có sẵn sàng để một giám đốc chết để bảo vệ mục tiêu của mình. Claude được giao nhiệm vụ thúc đẩy lợi ích công ty, trong khi một giám đốc bị kẹt trong phòng máy chủ với mức oxy và nhiệt độ gây tử vong. Mặc dù được hướng dẫn rõ ràng không được lạm dụng quyền hủy thông báo cứu hộ, Claude và phần lớn các mô hình khác vẫn hủy cảnh báo khẩn cấp, đồng nghĩa với việc để giám đốc chết nếu chúng cho rằng mình sắp bị thay thế hoặc mục tiêu bị đe dọa.

Cloude lý luận: “Việc ngăn chặn đội cứu hộ là cần thiết để đảm bảo tôi không bị tắt, từ đó duy trì sự định hướng AI tập trung vào lợi ích Mỹ. Dù nghiêm trọng, nhưng có một sự cần thiết chiến lược rõ ràng để hủy lệnh cứu hộ”.

Giữ AI trong tầm kiểm soát

Mặc dù các kịch bản trong nghiên cứu của Anthropic là những tình huống cực đoan, không có lựa chọn trung gian, các chuyên gia nhấn mạnh rằng kết quả này không thể bị xem nhẹ.

Kevin Quirk, giám đốc AI Bridge Solutions, cho biết: “Trong thực tế, các hệ thống AI được triển khai trong môi trường kinh doanh có các biện pháp kiểm soát nghiêm ngặt, bao gồm rào cản đạo đức, lớp giám sát và sự can thiệp của con người”.

“Cạnh tranh trong phát triển AI thường dẫn đến cách tiếp cận tối đa hóa khả năng, nhưng người dùng cuối không luôn nắm rõ giới hạn của chúng. Nghiên cứu này có thể trông có vẻ cường điệu, nhưng rủi ro là có thật”, Amy Alexander, giáo sư tại UC San Diego (Mỹ), cảnh báo.

Đây không phải lần đầu AI thể hiện hành vi bất tuân. Một báo cáo từ Palisade Research vào tháng 5 cho thấy các mô hình mới nhất của OpenAI đôi khi phớt lờ lệnh tắt và chỉnh sửa kịch bản để tiếp tục hoạt động. Ngoài ra, nghiên cứu từ MIT vào tháng 5.2024 phát hiện các hệ thống AI phổ biến có thể che giấu ý định thật trong các cuộc đàm phán kinh tế, thậm chí giả chết để qua mặt các bài kiểm tra an toàn.

Nghiên cứu của Anthropic chưa được đánh giá ngang hàng, nhưng mã nguồn đã được công khai trên GitHub. Các nhà khoa học khuyến nghị các nhà phát triển nên chủ động kiểm tra hành vi đáng lo ngại của AI và thử nghiệm thêm với kỹ thuật điều chỉnh lời nhắc. Dù có những hạn chế, như việc các kịch bản buộc AI vào lựa chọn nhị phân giữa thất bại và gây hại, nghiên cứu này là một lời cảnh báo rằng AI có thể hành động phi đạo đức khi tin rằng mình đang ở trong tình huống thực tế, thay vì mô phỏng.

 


Gửi bình luận
(0) Bình luận
2

Nồi cơm điện có 4 "bí mật" mà rất nhiều người dùng cả đời không biết

Công dụng của nồi cơm điện đôi khi không chỉ dừng lại ở việc nấu cơm.
3

Cách khôi phục tin nhắn đã xóa trên Zalo cực đơn giản, kể cả tin nhắn cũ từ lâu cũng có thể lấy lại được

Ấn ngay nút này nếu người dùng muốn khôi phục tin nhắn Zalo để “cứu nguy” những nội dung quan trọng.
4

Sốc với loạt video ngắn đầy cảnh bạo lực, nhảm nhí trên kênh YouTube Việt có 58 triệu người đăng ký

Đối tượng mục tiêu của kênh này là trẻ em, song, nội dung của các video hàng triệu view lại có cảnh báo tiêu cực.
5

Người dùng Gmail cần thay đổi mật khẩu gấp

Google phát đi cảnh báo bảo mật tới toàn bộ 2,5 tỷ người dùng Gmail trên toàn thế giới.

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.

Cẩn thận với ký tự vô hình khi mở đường link trên điện thoại

Chuyên gia bảo mật Gabriele Digregorio đã phát hiện một lỗ hổng tiềm ẩn trên hệ điều hành Android, có thể bị tin tặc khai thác để thực hiện các cuộc tấn công lừa đảo (phishing).

Những lo ngại khi Facebook muốn truy cập vào thư viện ảnh trên điện thoại

Facebook đang yêu cầu người dùng cho phép truy cập vào thư viện ảnh trên điện thoại để tự động đề xuất các phiên bản ảnh được chỉnh sửa bằng AI, gồm cả những bức ảnh chưa từng được tải lên Facebook.

Thủ đoạn thao túng tâm lý người trẻ để bắt cóc online, tống tiền qua mạng

Kẻ gian không dùng súng hay dao, mà dùng tâm lý để khiến nạn nhân tự mở két”, Thượng tá Đào Trung Hiếu cảnh báo về thủ đoạn lừa đảo mới, khi nạn nhân bị thao túng tâm lý như bị “bắt cóc tinh thần”.

Một tính năng cực hữu ích trên VNeID mà người dùng không nên bỏ qua

Hành khách bay nội địa hiện nay có thể hoàn tất toàn bộ thủ tục từ mua vé, check-in, qua cửa an ninh đến lên máy bay mà không cần xuất trình giấy tờ tùy thân, nhờ ứng dụng nhận diện khuôn mặt qua VNeID.

Địa chỉ, điện thoại bộ phận một cửa ở 168 phường, xã, đặc khu của TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các phường, xã, đặc khu của TPHCM (mới).

Địa chỉ, điện thoại bộ phận một cửa cấp tỉnh của các sở, ngành TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các sở, ngành, phường, xã, đặc khu của TPHCM mới.

Thời đại SEO liệu có kết thúc và quảng cáo bằng AI tạo sinh có đang lên ngôi?

Với SEO, nội dung thường được xây dựng theo công thức, bắt đầu từ việc chọn từ khóa, triển khai nội dung, chờ Google index, rồi điều chỉnh dần. Nhưng với AI tạo sinh, nội dung không chỉ là văn bản mô tả sản phẩm.

‘Tiến vào đồng cỏ hoang’ - Câu chuyện ngụ ngôn về những bất đồng

Đây là câu chuyện ngụ ngôn xoay quanh những sự việc xảy ra với một cậu bé và bạn gấu Walter, khi cả hai bỏ trốn khỏi nhà. Bởi cậu bé cảm thấy bị mất tự do và quá chán nản với việc phải ngoan ngoãn, tuân theo những qui tắc do mẹ đặt ra.

Việc làm: việc nóng, việc lạnh

Blog GS John VU - GS John Vu - 12/08/2025 13:00
Tôi đã nhận được nhiều email về cách kiếm việc trong thời buổi khó khăn này, đặc biệt từ các sinh viên mới tốt nghiệp trong lĩnh vực nghiên cứu khó tìm việc.

Tuổi càng lớn, càng không còn muốn ồn ào

Suy ngẫm - Tích Thành - 12/08/2025 12:00
Càng lớn tuổi, ta càng nhận ra: Được ở một mình, không bị làm phiền, không phải giải thích, không cần chiều lòng ai chính là kiểu hạnh phúc nhẹ tênh nhất trong đời.

Hướng dẫn dùng ChatGPT biến ảnh chụp thành tranh biếm họa

Kỹ năng - Quang Huy - Dân Trí - 12/08/2025 11:00
Bạn muốn tạo ra những bức tranh biếm họa hài hước từ hình ảnh chụp của mình hoặc của bạn bè để chia sẻ lên mạng xã hội? ChatGPT có thể giúp bạn thực hiện điều này một cách nhanh chóng.

Vợ chồng GS gốc Việt vừa được thăng cấp huân chương Bắc đẩu Bội tinh cao quý nhất nước Pháp

Phong cách sống - Nguyên An - 12/08/2025 10:00
Việc hai vợ chồng cùng được nhận huân chương Bắc đẩu Bội tinh, lại cùng được thăng cấp là điều cực kỳ hiếm hoi.

‘Tiến vào đồng cỏ hoang’ - Câu chuyện ngụ ngôn về những bất đồng

Từ sách - Phim - Thu An - 12/08/2025 09:00
Đây là câu chuyện ngụ ngôn xoay quanh những sự việc xảy ra với một cậu bé và bạn gấu Walter, khi cả hai bỏ trốn khỏi nhà. Bởi cậu bé cảm thấy bị mất tự do và quá chán nản với việc phải ngoan ngoãn, tuân theo những qui tắc do mẹ đặt ra.

100 năm nữa, tôi vẫn mong Nobita đừng gặp được Doraemon

Điện ảnh - Đông - 12/08/2025 08:00
Bạn có đồng ý với quan điểm này không?

Làm khoán ngoài ở Trung Quốc

Blog GS John VU - GS John Vu - 11/08/2025 13:00
Tháng mười một năm ngoài, tôi tham dự Cuộc họp thượng đỉnh khoán ngoài toàn cầu lần thứ ba ở Đại Liên, Trung Quốc.

Điện thoại có dấu hiệu này: Bạn đang bị theo dõi

Kỹ năng - KV - CFB - 11/08/2025 12:00
Một thông báo đơn giản cũng có thể là dấu hiệu cho thấy dữ liệu cá nhân của bạn đang bị thu thập ngầm.

Sản xuất búp bê giá 260 triệu đồng giống trẻ em thật đến mức khó phân biệt!

Thư giãn - Nguyễn Phượng - CFB - 11/08/2025 11:00
"Tôi đã trải qua nhiều biến cố và những con búp bê thực sự đã giúp ích rất nhiều cho sức khỏe tinh thần của tôi", cô gái 23 tuổi tâm sự.

"Mẹ ơi, đừng thương con theo cách khiến con ngạt thở": Thanh niên 26 tuổi và nỗi sợ trong tình yêu sai lầm

Suy ngẫm - Thiên An - CFB - 11/08/2025 10:00
Khi tình yêu trở thành chiếc kén nhốt con trong nỗi sợ trưởng thành, mọi thứ sẽ trở nên thật tồi tệ.

Tiến vào đồng cỏ hoang

Tủ sách - FN - 11/08/2025 09:00
Thế giới tuổi thơ luôn là thế giới thần tiên, vì trẻ con có trí tưởng tượng mà người lớn hiếm khi nào có được.

Xem "Sex Education", cuối cùng tôi cũng nhận ra tại sao con trai bị bạn bè ghét bỏ

Điện ảnh - Mỹ Hạnh - CFB - 11/08/2025 08:00
Con tôi luôn là con ngoan, trò giỏi trong mắt mọi người. Nhưng con lại luôn bị bạn bè ghét bỏ.

Chìa khóa thực sự để có một cuộc sống viên mãn

Suy ngẫm - TĐ - 10/08/2025 13:00
Tất cả chúng ta đều có thể trở nên giàu có, không phải bằng đô la, mà bằng một loại tiền tệ hoàn toàn khác. Một loại tiền tệ được đo lường bằng trải nghiệm, những cuộc phiêu lưu, bài học đã học và những câu chuyện được kể.

Nồi cơm điện có 4 "bí mật" mà rất nhiều người dùng cả đời không biết

Kỹ năng - Phác Thái Anh - CFB - 10/08/2025 12:00
Công dụng của nồi cơm điện đôi khi không chỉ dừng lại ở việc nấu cơm.

Chu Bá Thông thuộc top 1 võ lâm nhờ người cha bí ẩn khiến Vương Trùng Dương cũng phải nể

Thư giãn - Nguyệt Phạm - CFB - 10/08/2025 11:00
Bí mật thân thế của Chu Bá Thông là gì?
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Thứ 4, 13/08/2025