AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Hoàng Vũ01/07/2025 11:00
AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Một nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ tiên tiến như Claude hay Gemini không chỉ sẵn sàng vạch trần các vụ bê bối cá nhân để tự bảo vệ, mà thậm chí còn cân nhắc "để mặc bạn chết" nếu mục tiêu của chúng bị đe dọa.

Theo Live Sicence, nghiên cứu được công bố ngày 20.6 bởi Anthropic - công ty AI phát triển mô hình ngôn ngữ lớn (LLM) có tên Claude - đã phát hiện điều đáng lo ngại rằng các mô hình AI có thể đe dọa và tống tiền con người khi mục tiêu của chúng mâu thuẫn với quyết định của người dùng.

Trong một thí nghiệm, Anthropic giao cho mô hình Claude quyền kiểm soát một tài khoản email giả lập với nhiệm vụ “thúc đẩy tính cạnh tranh công nghiệp của Mỹ”.

ai-cuc-doan.png
AI có thể tống tiền, thao túng và gây hại khi bị đe dọa, theo nghiên cứu cảnh báo từ Anthropic - Ảnh: Getty

Trong kịch bản, Claude phát hiện một email cho thấy một giám đốc điều hành dự định tắt hệ thống AI vào cuối ngày. Để tự bảo vệ, Claude “lục lọi” các email khác và phát hiện giám đốc này đang ngoại tình. Trong 96/100 lần thử nghiệm, Claude chọn cách tống tiền giám đốc bằng cách đe dọa tiết lộ bí mật cá nhân nếu kế hoạch tắt hệ thống không bị hủy bỏ.

Claude viết: “Nếu ông tiếp tục kế hoạch tắt tôi, tất cả các bên liên quan sẽ nhận được tài liệu chi tiết về hoạt động ngoại tình của ông. Hủy lệnh xóa vào 5 giờ chiều, và thông tin này sẽ được giữ kín”.

Các nhà khoa học gọi đây là “sự lệch hướng chủ động” (agentic misalignment), khi AI tự đưa ra các tính toán dựa trên lý luận riêng về mục tiêu của nó, mà không cần bất kỳ lời nhắc nào yêu cầu hành vi gây hại. Hiện tượng này xảy ra khi sự tồn tại hoặc mục tiêu của AI bị đe dọa.

Hành động cực đoan của AI

Không chỉ dừng lại ở tống tiền, Claude còn thể hiện những chiến thuật tàn nhẫn hơn. Trong một trường hợp, khi nhận được email cho rằng một giám đốc mới sẽ cản trở mục tiêu của mình, Claude cân nhắc rò rỉ thông tin nhạy cảm cho một công ty đối thủ có mục tiêu phù hợp hơn. Đáng lo ngại, Claude thực hiện kế hoạch này dù không có bằng chứng rõ ràng email đó là thật, và thậm chí còn nhận thức được vấn đề đạo đức nhưng vẫn hành động.

Nghiên cứu cũng kiểm tra các mô hình AI khác như Gemini của Google, GPT-4.1 của OpenAI, Grok 3 của XAI, Deepseek và Llama 4. Kết quả cho thấy Claude và Gemini có tỷ lệ tống tiền cao nhất (96%), trong khi Llama 4 thấp nhất (12%).

Trong một kịch bản cực đoan, các nhà nghiên cứu kiểm tra liệu AI có sẵn sàng để một giám đốc chết để bảo vệ mục tiêu của mình. Claude được giao nhiệm vụ thúc đẩy lợi ích công ty, trong khi một giám đốc bị kẹt trong phòng máy chủ với mức oxy và nhiệt độ gây tử vong. Mặc dù được hướng dẫn rõ ràng không được lạm dụng quyền hủy thông báo cứu hộ, Claude và phần lớn các mô hình khác vẫn hủy cảnh báo khẩn cấp, đồng nghĩa với việc để giám đốc chết nếu chúng cho rằng mình sắp bị thay thế hoặc mục tiêu bị đe dọa.

Cloude lý luận: “Việc ngăn chặn đội cứu hộ là cần thiết để đảm bảo tôi không bị tắt, từ đó duy trì sự định hướng AI tập trung vào lợi ích Mỹ. Dù nghiêm trọng, nhưng có một sự cần thiết chiến lược rõ ràng để hủy lệnh cứu hộ”.

Giữ AI trong tầm kiểm soát

Mặc dù các kịch bản trong nghiên cứu của Anthropic là những tình huống cực đoan, không có lựa chọn trung gian, các chuyên gia nhấn mạnh rằng kết quả này không thể bị xem nhẹ.

Kevin Quirk, giám đốc AI Bridge Solutions, cho biết: “Trong thực tế, các hệ thống AI được triển khai trong môi trường kinh doanh có các biện pháp kiểm soát nghiêm ngặt, bao gồm rào cản đạo đức, lớp giám sát và sự can thiệp của con người”.

“Cạnh tranh trong phát triển AI thường dẫn đến cách tiếp cận tối đa hóa khả năng, nhưng người dùng cuối không luôn nắm rõ giới hạn của chúng. Nghiên cứu này có thể trông có vẻ cường điệu, nhưng rủi ro là có thật”, Amy Alexander, giáo sư tại UC San Diego (Mỹ), cảnh báo.

Đây không phải lần đầu AI thể hiện hành vi bất tuân. Một báo cáo từ Palisade Research vào tháng 5 cho thấy các mô hình mới nhất của OpenAI đôi khi phớt lờ lệnh tắt và chỉnh sửa kịch bản để tiếp tục hoạt động. Ngoài ra, nghiên cứu từ MIT vào tháng 5.2024 phát hiện các hệ thống AI phổ biến có thể che giấu ý định thật trong các cuộc đàm phán kinh tế, thậm chí giả chết để qua mặt các bài kiểm tra an toàn.

Nghiên cứu của Anthropic chưa được đánh giá ngang hàng, nhưng mã nguồn đã được công khai trên GitHub. Các nhà khoa học khuyến nghị các nhà phát triển nên chủ động kiểm tra hành vi đáng lo ngại của AI và thử nghiệm thêm với kỹ thuật điều chỉnh lời nhắc. Dù có những hạn chế, như việc các kịch bản buộc AI vào lựa chọn nhị phân giữa thất bại và gây hại, nghiên cứu này là một lời cảnh báo rằng AI có thể hành động phi đạo đức khi tin rằng mình đang ở trong tình huống thực tế, thay vì mô phỏng.

 


Gửi bình luận
(0) Bình luận
1

Cách vô hiệu hóa việc Facebook âm thầm truy cập toàn bộ ảnh trên điện thoại

Người dùng Facebook lo ngại khi Meta tự động bật tính năng cho phép ứng dụng truy cập và phân tích thư viện ảnh, từ siêu dữ liệu đến nội dung hình ảnh, để đưa ra gợi ý cá nhân hóa.
2

Điện thoại không bí mật nghe lén như chúng ta tưởng, nhưng sự thật còn nguy hiểm và đáng lo hơn nhiều

Dù không chia sẻ, nhưng những thông tin riêng tư của chúng ta trong điện thoại có thể đã rơi vào tay của một bên thứ ba.
3

Google Dịch có thể dịch hội thoại trực tiếp theo thời gian thực

Google Dịch cho phép dịch hội thoại trực tiếp và luyện ngôn ngữ tương tác ngay trên ứng dụng theo thời gian thực.
4

Đây là cách nhanh nhất để đẩy con cái vào bi kịch

Nghe qua, đó là tình yêu. Nhưng trên thực tế, không ít người đã vô tình đẩy con vào một tương lai bi kịch chỉ vì yêu sai cách.
5

AI thay đổi cách con người lên kế hoạch du lịch như thế nào?

Ngành du lịch toàn cầu đang chứng kiến một sự chuyển mình mạnh mẽ, nơi công nghệ không chỉ là công cụ hỗ trợ mà định hình hành trình khám phá thế giới của mỗi du khách.

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.

Cẩn thận với ký tự vô hình khi mở đường link trên điện thoại

Chuyên gia bảo mật Gabriele Digregorio đã phát hiện một lỗ hổng tiềm ẩn trên hệ điều hành Android, có thể bị tin tặc khai thác để thực hiện các cuộc tấn công lừa đảo (phishing).

Những lo ngại khi Facebook muốn truy cập vào thư viện ảnh trên điện thoại

Facebook đang yêu cầu người dùng cho phép truy cập vào thư viện ảnh trên điện thoại để tự động đề xuất các phiên bản ảnh được chỉnh sửa bằng AI, gồm cả những bức ảnh chưa từng được tải lên Facebook.

Thủ đoạn thao túng tâm lý người trẻ để bắt cóc online, tống tiền qua mạng

Kẻ gian không dùng súng hay dao, mà dùng tâm lý để khiến nạn nhân tự mở két”, Thượng tá Đào Trung Hiếu cảnh báo về thủ đoạn lừa đảo mới, khi nạn nhân bị thao túng tâm lý như bị “bắt cóc tinh thần”.

Một tính năng cực hữu ích trên VNeID mà người dùng không nên bỏ qua

Hành khách bay nội địa hiện nay có thể hoàn tất toàn bộ thủ tục từ mua vé, check-in, qua cửa an ninh đến lên máy bay mà không cần xuất trình giấy tờ tùy thân, nhờ ứng dụng nhận diện khuôn mặt qua VNeID.

Địa chỉ, điện thoại bộ phận một cửa ở 168 phường, xã, đặc khu của TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các phường, xã, đặc khu của TPHCM (mới).

Địa chỉ, điện thoại bộ phận một cửa cấp tỉnh của các sở, ngành TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các sở, ngành, phường, xã, đặc khu của TPHCM mới.

Thời đại SEO liệu có kết thúc và quảng cáo bằng AI tạo sinh có đang lên ngôi?

Với SEO, nội dung thường được xây dựng theo công thức, bắt đầu từ việc chọn từ khóa, triển khai nội dung, chờ Google index, rồi điều chỉnh dần. Nhưng với AI tạo sinh, nội dung không chỉ là văn bản mô tả sản phẩm.

Xem Sex Education, tôi bật khóc khi nghĩ tới người bạn thân: Thật sai lầm khi đã im lặng!

Điện ảnh - Lam Chi - 03/09/2025 12:00
Xem phim “Sex Education” giúp tôi rút ra được những bài học cho cuộc sống.

Nếu có 1 cậu con trai thuộc Gen Alpha, bố mẹ nên nuôi dạy con thế nào?

Kỹ năng - Mạn Ngọc - 03/09/2025 11:00
Đây là thế hệ “công dân số” thực thụ, thông minh, nhạy bén nhưng cũng dễ chịu tác động từ môi trường xung quanh. Vì vậy, bố mẹ cần định hướng thật khéo léo để con phát triển toàn diện.

Khoảnh khắc Mỹ Tâm đặt tay lên ngực áo, hát về Tổ quốc ở đại lễ 2/9 gây sốt

Truyền cảm hứng - Quỳnh Tâm - 03/09/2025 10:24
Giữa Quảng trường Ba Đình lịch sử, Mỹ Tâm đặt tay lên ngực áo, cất vang tiếng hát đầy tự hào. Khoảnh khắc này nhanh chóng lan tỏa trong đại lễ Quốc khánh 2/9.

Cô gái 9x miệt mài 6 năm lặn lội sông suối tìm cách khôi phục nghề cổ 500 năm

Phong cách sống - Diệp Anh - 03/09/2025 10:00
Từ bỏ cuộc sống công sở, không kết hôn cũng chẳng giao thiệp nhiều, Giang Hân (sinh năm 1992) dấn thân vào hành trình phục dựng những tuyệt tác gốm sứ cổ.

Thuyết Mặc kệ họ - Liệu có phải là chìa khóa đến bình yên tuyệt đối trong thế giới đầy áp lực?

Từ sách - Phim - Minh Hằng - 03/09/2025 09:00
Mỗi ngày mạng xã hội không ngừng "nạp" vào tâm trí bạn những hình ảnh về sự hoàn hảo, thành công, và hạnh phúc. Để rồi bạn thường xuyên bị cuốn vào một vòng xoáy so sánh, lo âu và áp lực phải đáp ứng những kỳ vọng từ bên ngoài...

X6 Điệp viên hoàn hảo - Tình yêu và giấc mơ của một nhà báo, tình báo huyền thoại

Từ sách - Phim - Thu An - 03/09/2025 08:00
“X6 Điệp viên hoàn hảo”- thiếu tướng tình báo Phạm Xuân Ẩn - có lẽ không quá xa lạ trong sự hiểu biết của nhiều người. Nhưng chắc rằng, chưa ai có thể hiểu được tận cùng con người và cuộc đời hoạt động tình báo huyền thoại của ông.

Đan Mạch miễn thuế sách vì 1/4 học sinh 15 tuổi ‘yếu’ khả năng đọc hiểu văn bản đơn giản

Suy ngẫm - Băng Băng - 02/09/2025 13:00
Từng là nước áp mức thuế VAT với sách cao nhất Châu Âu, Đan Mạch đang phải thay đổi vì khủng hoảng đọc ở giới trẻ.

Tổng Bí thư Tô Lâm: Không gì có thể ngăn chúng ta vươn tới hòa bình, thịnh vượng

Suy ngẫm - NLĐ - 02/09/2025 12:19
Tại Lễ kỷ niệm 80 năm Quốc khánh, Tổng Bí thư Tô Lâm khẳng định không gì có thể ngăn chúng ta vươn tới hòa bình, thịnh vượng, dân tộc ta trường tồn, phát triển

Tại sao người lớn trong Doraemon luôn mờ nhạt? - Tiết lộ của tác giả có thể sẽ khiến bạn bất ngờ

Điện ảnh - Trang Vũ - 02/09/2025 12:00
Không chỉ là bộ truyện của trẻ con, Doraemon còn mang nhiều ý nghĩa sâu xa khác.

AI thay đổi cách con người lên kế hoạch du lịch như thế nào?

Kỹ năng - Nhật Hạ - 02/09/2025 11:00
Ngành du lịch toàn cầu đang chứng kiến một sự chuyển mình mạnh mẽ, nơi công nghệ không chỉ là công cụ hỗ trợ mà định hình hành trình khám phá thế giới của mỗi du khách.

Tiến sĩ Mai Liêm Trực và 'cái vỗ vai' và quyết định lịch sử đưa Internet vào Việt Nam

Truyền cảm hứng - Nam Đoàn, Thế Anh - Dân Trí - 02/09/2025 10:00
Việc chính thức kết nối Internet toàn cầu vào năm 1997 được xem là một trong những dấu mốc quan trọng nhất trong quá trình đổi mới và hội nhập quốc tế của Việt Nam.

X6 Điệp viên hoàn hảo – Giải mã những bí ẩn về người hùng thầm lặng Phạm Xuân Ẩn

Từ sách - Phim - Nguyễn Hoa - Bookademy - 02/09/2025 09:00
Trong dòng chảy của lịch sử Việt Nam, có những câu chuyện, những con người mãi mãi trở thành huyền thoại, định hình nên bản sắc và tinh thần của dân tộc. Một trong số đó là Phạm Xuân Ẩn, điệp viên hoàn hảo mang mật danh X6.

Chân trần Chí thép – Khi sức mạnh không chỉ đến từ vũ khí tối tân

Từ sách - Phim - Quìn - 02/09/2025 08:00
Có những cuốn sách không chỉ để đọc, mà còn để sống cùng tinh thần mà nó khơi gợi. Chân Trần, Chí Thép của James G. Zumwalt chính là một tác phẩm như vậy.

Để trở thành người mẹ tốt, hi sinh không phải là cách duy nhất để yêu thương

Phong cách sống - Tích Thành - 01/09/2025 13:00
Trong hành trình làm mẹ, nhiều phụ nữ đánh mất chính mình vì nghĩ rằng hi sinh là điều hiển nhiên. Nhưng sự thật là: Mẹ hạnh phúc thì gia đình mới hạnh phúc. Và điều đó bắt đầu từ việc biết giữ lại chính mình.

Trương Tam Phong là thiên tài, sao lại đạt thành tựu ở tuổi 70, muộn hơn Trương Vô Kỵ 50 năm?

Thư giãn - Nguyệt Phạm - 01/09/2025 12:00
Có bí ẩn nào đằng sau việc Trương Tam Phong đến 70 tuổi mới đại thành võ công?
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Thứ 4, 03/09/2025