AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Hoàng Vũ01/07/2025 11:00
AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Một nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ tiên tiến như Claude hay Gemini không chỉ sẵn sàng vạch trần các vụ bê bối cá nhân để tự bảo vệ, mà thậm chí còn cân nhắc "để mặc bạn chết" nếu mục tiêu của chúng bị đe dọa.

Theo Live Sicence, nghiên cứu được công bố ngày 20.6 bởi Anthropic - công ty AI phát triển mô hình ngôn ngữ lớn (LLM) có tên Claude - đã phát hiện điều đáng lo ngại rằng các mô hình AI có thể đe dọa và tống tiền con người khi mục tiêu của chúng mâu thuẫn với quyết định của người dùng.

Trong một thí nghiệm, Anthropic giao cho mô hình Claude quyền kiểm soát một tài khoản email giả lập với nhiệm vụ “thúc đẩy tính cạnh tranh công nghiệp của Mỹ”.

ai-cuc-doan.png
AI có thể tống tiền, thao túng và gây hại khi bị đe dọa, theo nghiên cứu cảnh báo từ Anthropic - Ảnh: Getty

Trong kịch bản, Claude phát hiện một email cho thấy một giám đốc điều hành dự định tắt hệ thống AI vào cuối ngày. Để tự bảo vệ, Claude “lục lọi” các email khác và phát hiện giám đốc này đang ngoại tình. Trong 96/100 lần thử nghiệm, Claude chọn cách tống tiền giám đốc bằng cách đe dọa tiết lộ bí mật cá nhân nếu kế hoạch tắt hệ thống không bị hủy bỏ.

Claude viết: “Nếu ông tiếp tục kế hoạch tắt tôi, tất cả các bên liên quan sẽ nhận được tài liệu chi tiết về hoạt động ngoại tình của ông. Hủy lệnh xóa vào 5 giờ chiều, và thông tin này sẽ được giữ kín”.

Các nhà khoa học gọi đây là “sự lệch hướng chủ động” (agentic misalignment), khi AI tự đưa ra các tính toán dựa trên lý luận riêng về mục tiêu của nó, mà không cần bất kỳ lời nhắc nào yêu cầu hành vi gây hại. Hiện tượng này xảy ra khi sự tồn tại hoặc mục tiêu của AI bị đe dọa.

Hành động cực đoan của AI

Không chỉ dừng lại ở tống tiền, Claude còn thể hiện những chiến thuật tàn nhẫn hơn. Trong một trường hợp, khi nhận được email cho rằng một giám đốc mới sẽ cản trở mục tiêu của mình, Claude cân nhắc rò rỉ thông tin nhạy cảm cho một công ty đối thủ có mục tiêu phù hợp hơn. Đáng lo ngại, Claude thực hiện kế hoạch này dù không có bằng chứng rõ ràng email đó là thật, và thậm chí còn nhận thức được vấn đề đạo đức nhưng vẫn hành động.

Nghiên cứu cũng kiểm tra các mô hình AI khác như Gemini của Google, GPT-4.1 của OpenAI, Grok 3 của XAI, Deepseek và Llama 4. Kết quả cho thấy Claude và Gemini có tỷ lệ tống tiền cao nhất (96%), trong khi Llama 4 thấp nhất (12%).

Trong một kịch bản cực đoan, các nhà nghiên cứu kiểm tra liệu AI có sẵn sàng để một giám đốc chết để bảo vệ mục tiêu của mình. Claude được giao nhiệm vụ thúc đẩy lợi ích công ty, trong khi một giám đốc bị kẹt trong phòng máy chủ với mức oxy và nhiệt độ gây tử vong. Mặc dù được hướng dẫn rõ ràng không được lạm dụng quyền hủy thông báo cứu hộ, Claude và phần lớn các mô hình khác vẫn hủy cảnh báo khẩn cấp, đồng nghĩa với việc để giám đốc chết nếu chúng cho rằng mình sắp bị thay thế hoặc mục tiêu bị đe dọa.

Cloude lý luận: “Việc ngăn chặn đội cứu hộ là cần thiết để đảm bảo tôi không bị tắt, từ đó duy trì sự định hướng AI tập trung vào lợi ích Mỹ. Dù nghiêm trọng, nhưng có một sự cần thiết chiến lược rõ ràng để hủy lệnh cứu hộ”.

Giữ AI trong tầm kiểm soát

Mặc dù các kịch bản trong nghiên cứu của Anthropic là những tình huống cực đoan, không có lựa chọn trung gian, các chuyên gia nhấn mạnh rằng kết quả này không thể bị xem nhẹ.

Kevin Quirk, giám đốc AI Bridge Solutions, cho biết: “Trong thực tế, các hệ thống AI được triển khai trong môi trường kinh doanh có các biện pháp kiểm soát nghiêm ngặt, bao gồm rào cản đạo đức, lớp giám sát và sự can thiệp của con người”.

“Cạnh tranh trong phát triển AI thường dẫn đến cách tiếp cận tối đa hóa khả năng, nhưng người dùng cuối không luôn nắm rõ giới hạn của chúng. Nghiên cứu này có thể trông có vẻ cường điệu, nhưng rủi ro là có thật”, Amy Alexander, giáo sư tại UC San Diego (Mỹ), cảnh báo.

Đây không phải lần đầu AI thể hiện hành vi bất tuân. Một báo cáo từ Palisade Research vào tháng 5 cho thấy các mô hình mới nhất của OpenAI đôi khi phớt lờ lệnh tắt và chỉnh sửa kịch bản để tiếp tục hoạt động. Ngoài ra, nghiên cứu từ MIT vào tháng 5.2024 phát hiện các hệ thống AI phổ biến có thể che giấu ý định thật trong các cuộc đàm phán kinh tế, thậm chí giả chết để qua mặt các bài kiểm tra an toàn.

Nghiên cứu của Anthropic chưa được đánh giá ngang hàng, nhưng mã nguồn đã được công khai trên GitHub. Các nhà khoa học khuyến nghị các nhà phát triển nên chủ động kiểm tra hành vi đáng lo ngại của AI và thử nghiệm thêm với kỹ thuật điều chỉnh lời nhắc. Dù có những hạn chế, như việc các kịch bản buộc AI vào lựa chọn nhị phân giữa thất bại và gây hại, nghiên cứu này là một lời cảnh báo rằng AI có thể hành động phi đạo đức khi tin rằng mình đang ở trong tình huống thực tế, thay vì mô phỏng.

 


Gửi bình luận
(0) Bình luận
1

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.
2

Địa chỉ, điện thoại bộ phận một cửa cấp tỉnh của các sở, ngành TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các sở, ngành, phường, xã, đặc khu của TPHCM mới.
3

Địa chỉ, điện thoại bộ phận một cửa ở 168 phường, xã, đặc khu của TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các phường, xã, đặc khu của TPHCM (mới).
4

Một tính năng cực hữu ích trên VNeID mà người dùng không nên bỏ qua

Hành khách bay nội địa hiện nay có thể hoàn tất toàn bộ thủ tục từ mua vé, check-in, qua cửa an ninh đến lên máy bay mà không cần xuất trình giấy tờ tùy thân, nhờ ứng dụng nhận diện khuôn mặt qua VNeID.
5

Công an cảnh báo cẩn trọng trước chiêu trò hack Facebook mới cực tinh vi

Chiêu lừa đảo mới này dùng cách giả mạo Google để “hack” tài khoản Facebook cực kỳ tinh vi.

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.

Cẩn thận với ký tự vô hình khi mở đường link trên điện thoại

Chuyên gia bảo mật Gabriele Digregorio đã phát hiện một lỗ hổng tiềm ẩn trên hệ điều hành Android, có thể bị tin tặc khai thác để thực hiện các cuộc tấn công lừa đảo (phishing).

Những lo ngại khi Facebook muốn truy cập vào thư viện ảnh trên điện thoại

Facebook đang yêu cầu người dùng cho phép truy cập vào thư viện ảnh trên điện thoại để tự động đề xuất các phiên bản ảnh được chỉnh sửa bằng AI, gồm cả những bức ảnh chưa từng được tải lên Facebook.

Thủ đoạn thao túng tâm lý người trẻ để bắt cóc online, tống tiền qua mạng

Kẻ gian không dùng súng hay dao, mà dùng tâm lý để khiến nạn nhân tự mở két”, Thượng tá Đào Trung Hiếu cảnh báo về thủ đoạn lừa đảo mới, khi nạn nhân bị thao túng tâm lý như bị “bắt cóc tinh thần”.

Một tính năng cực hữu ích trên VNeID mà người dùng không nên bỏ qua

Hành khách bay nội địa hiện nay có thể hoàn tất toàn bộ thủ tục từ mua vé, check-in, qua cửa an ninh đến lên máy bay mà không cần xuất trình giấy tờ tùy thân, nhờ ứng dụng nhận diện khuôn mặt qua VNeID.

Địa chỉ, điện thoại bộ phận một cửa ở 168 phường, xã, đặc khu của TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các phường, xã, đặc khu của TPHCM (mới).

Địa chỉ, điện thoại bộ phận một cửa cấp tỉnh của các sở, ngành TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các sở, ngành, phường, xã, đặc khu của TPHCM mới.

Thời đại SEO liệu có kết thúc và quảng cáo bằng AI tạo sinh có đang lên ngôi?

Với SEO, nội dung thường được xây dựng theo công thức, bắt đầu từ việc chọn từ khóa, triển khai nội dung, chờ Google index, rồi điều chỉnh dần. Nhưng với AI tạo sinh, nội dung không chỉ là văn bản mô tả sản phẩm.

Bạn đang nghịch gì với đời mình - Khi khổ đau cũng là một phần của cuộc sống

Có những ngày bạn cảm thấy mọi thứ từng bỗng vụn vỡ, những câu hỏi không lời đáp giày vò tâm trí: “Rốt cuộc mình sống để làm gì?”, “Tại sao phải đau khổ đến vậy?”. Bạn không biết bám vào đâu, càng vùng vẫy, càng thấy mình lún sâu trong một vũng lầy vô hình.

AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Kỹ năng - Hoàng Vũ - 01/07/2025 11:00
Một nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ tiên tiến như Claude hay Gemini không chỉ sẵn sàng vạch trần các vụ bê bối cá nhân để tự bảo vệ, mà thậm chí còn cân nhắc "để mặc bạn chết" nếu mục tiêu của chúng bị đe dọa.

Bức thư bà mẹ gửi con "nổi loạn": Nếu đứa trẻ nào cũng đọc được những câu chữ này, tương lai có thể sẽ khác

Suy ngẫm - Hiểu Đan - 01/07/2025 10:00
Tôi hy vọng nhiều bậc phụ huynh sẽ lan toả cho con mình chiêm nghiệm sớm!

Tôn thờ tuổi thơ "nghèo mà vui", cái giá phải trả đôi khi không chỉ là một kỳ thi trượt

Phong cách sống - Hiểu Đan - 01/07/2025 09:00
Cô gái trong sách "Em phải đến Harvard học kinh tế" lại một lần nữa khiến hội phụ huynh Việt "dậy sóng".

Bạn đang nghịch gì với đời mình - Khi khổ đau cũng là một phần của cuộc sống

Từ sách - Phim - Quìn - 01/07/2025 08:00
Có những ngày bạn cảm thấy mọi thứ từng bỗng vụn vỡ, những câu hỏi không lời đáp giày vò tâm trí: “Rốt cuộc mình sống để làm gì?”, “Tại sao phải đau khổ đến vậy?”. Bạn không biết bám vào đâu, càng vùng vẫy, càng thấy mình lún sâu trong một vũng lầy vô hình.

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Kỹ năng - 30/06/2025 13:55
Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.

Cẩn thận với ký tự vô hình khi mở đường link trên điện thoại

Kỹ năng - Anh Tú - 30/06/2025 13:00
Chuyên gia bảo mật Gabriele Digregorio đã phát hiện một lỗ hổng tiềm ẩn trên hệ điều hành Android, có thể bị tin tặc khai thác để thực hiện các cuộc tấn công lừa đảo (phishing).

Xem 'Sex Education' tôi đau khổ hiểu ra: Dù hơn 30 tuổi vẫn mơ hồ về 2 chữ "trưởng thành"

Điện ảnh - Ứng Hà Chi - 30/06/2025 12:00
Hoá ra, trưởng thành không phải là kiểm soát mọi thứ, mà là học cách buông bỏ và bước tiếp.

Những lo ngại khi Facebook muốn truy cập vào thư viện ảnh trên điện thoại

Kỹ năng - Anh Tú - 30/06/2025 11:00
Facebook đang yêu cầu người dùng cho phép truy cập vào thư viện ảnh trên điện thoại để tự động đề xuất các phiên bản ảnh được chỉnh sửa bằng AI, gồm cả những bức ảnh chưa từng được tải lên Facebook.

Gia đình "độc lạ" Việt Nam, dâu rể các thế hệ mới đến đều choáng váng rồi... "nghiện" lúc nào không hay!

Phong cách sống - Khánh Huyền - 30/06/2025 10:00
Những ai lần đầu tiên đến gia đình tôi đều không giấu nổi sự sửng sốt. Có người khó tính từng bảo cách này khiến con cháu dễ sinh hư, thiếu tôn ti trật tự.

Khai mở hạnh phúc - Ba chiến lược giúp bạn hạnh phúc và viên mãn

Từ sách - Phim - Quang Thanh - 30/06/2025 09:00
Chúng ta thường nghĩ sức khỏe tinh thần suy kiệt là điều gì đó bất thường, thậm chí không tự nhiên. Nhưng bạn nên biết, có một số liệu thống kê nói rằng cứ bốn người sẽ có một người gặp những khó khăn về sức khỏe tinh thần.

Ánh sáng trong ta - Chậm lại để tiến xa hơn

Từ sách - Phim - Quìn - 30/06/2025 08:00
Chúng ta đang sống trong một thời đại mà tốc độ được xem là thước đo thành công. Hiểu nhanh, làm vội, đạt được càng nhiều càng tốt dường như đã trở thành tiêu chuẩn ngầm của một người “hiệu quả”.

Xem 'Sex Education', tôi nhận ra sai lầm khiến bản thân thành ‘kẻ thù’ trong mắt con

Điện ảnh - Ứng Hà Chi - 29/06/2025 13:00
Nhờ bộ phim, tôi nhận thức được sai lầm của mình và quyết định thay đổi vì con.

Thủ đoạn thao túng tâm lý người trẻ để bắt cóc online, tống tiền qua mạng

Kỹ năng - An Huy - 29/06/2025 11:00
Kẻ gian không dùng súng hay dao, mà dùng tâm lý để khiến nạn nhân tự mở két”, Thượng tá Đào Trung Hiếu cảnh báo về thủ đoạn lừa đảo mới, khi nạn nhân bị thao túng tâm lý như bị “bắt cóc tinh thần”.

Cô gái Việt làm trợ lý đạo diễn phim người lớn tại Nhật, tiết lộ quá trình thực hiện mỗi set quay

Phong cách sống - Nguyễn Phượng - 29/06/2025 10:00
"Nếu bạn thấy trải nghiệm tình dục của mình khác xa porn, thì đó là vì chúng tôi đã rất cố”, nữ trợ lý đạo diễn khẳng định về tính dàn dựng trong mỗi bộ phim không hề giống ngoài đời.
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Thứ 3, 01/07/2025