AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Hoàng Vũ01/07/2025 11:00
AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Một nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ tiên tiến như Claude hay Gemini không chỉ sẵn sàng vạch trần các vụ bê bối cá nhân để tự bảo vệ, mà thậm chí còn cân nhắc "để mặc bạn chết" nếu mục tiêu của chúng bị đe dọa.

Theo Live Sicence, nghiên cứu được công bố ngày 20.6 bởi Anthropic - công ty AI phát triển mô hình ngôn ngữ lớn (LLM) có tên Claude - đã phát hiện điều đáng lo ngại rằng các mô hình AI có thể đe dọa và tống tiền con người khi mục tiêu của chúng mâu thuẫn với quyết định của người dùng.

Trong một thí nghiệm, Anthropic giao cho mô hình Claude quyền kiểm soát một tài khoản email giả lập với nhiệm vụ “thúc đẩy tính cạnh tranh công nghiệp của Mỹ”.

ai-cuc-doan.png
AI có thể tống tiền, thao túng và gây hại khi bị đe dọa, theo nghiên cứu cảnh báo từ Anthropic - Ảnh: Getty

Trong kịch bản, Claude phát hiện một email cho thấy một giám đốc điều hành dự định tắt hệ thống AI vào cuối ngày. Để tự bảo vệ, Claude “lục lọi” các email khác và phát hiện giám đốc này đang ngoại tình. Trong 96/100 lần thử nghiệm, Claude chọn cách tống tiền giám đốc bằng cách đe dọa tiết lộ bí mật cá nhân nếu kế hoạch tắt hệ thống không bị hủy bỏ.

Claude viết: “Nếu ông tiếp tục kế hoạch tắt tôi, tất cả các bên liên quan sẽ nhận được tài liệu chi tiết về hoạt động ngoại tình của ông. Hủy lệnh xóa vào 5 giờ chiều, và thông tin này sẽ được giữ kín”.

Các nhà khoa học gọi đây là “sự lệch hướng chủ động” (agentic misalignment), khi AI tự đưa ra các tính toán dựa trên lý luận riêng về mục tiêu của nó, mà không cần bất kỳ lời nhắc nào yêu cầu hành vi gây hại. Hiện tượng này xảy ra khi sự tồn tại hoặc mục tiêu của AI bị đe dọa.

Hành động cực đoan của AI

Không chỉ dừng lại ở tống tiền, Claude còn thể hiện những chiến thuật tàn nhẫn hơn. Trong một trường hợp, khi nhận được email cho rằng một giám đốc mới sẽ cản trở mục tiêu của mình, Claude cân nhắc rò rỉ thông tin nhạy cảm cho một công ty đối thủ có mục tiêu phù hợp hơn. Đáng lo ngại, Claude thực hiện kế hoạch này dù không có bằng chứng rõ ràng email đó là thật, và thậm chí còn nhận thức được vấn đề đạo đức nhưng vẫn hành động.

Nghiên cứu cũng kiểm tra các mô hình AI khác như Gemini của Google, GPT-4.1 của OpenAI, Grok 3 của XAI, Deepseek và Llama 4. Kết quả cho thấy Claude và Gemini có tỷ lệ tống tiền cao nhất (96%), trong khi Llama 4 thấp nhất (12%).

Trong một kịch bản cực đoan, các nhà nghiên cứu kiểm tra liệu AI có sẵn sàng để một giám đốc chết để bảo vệ mục tiêu của mình. Claude được giao nhiệm vụ thúc đẩy lợi ích công ty, trong khi một giám đốc bị kẹt trong phòng máy chủ với mức oxy và nhiệt độ gây tử vong. Mặc dù được hướng dẫn rõ ràng không được lạm dụng quyền hủy thông báo cứu hộ, Claude và phần lớn các mô hình khác vẫn hủy cảnh báo khẩn cấp, đồng nghĩa với việc để giám đốc chết nếu chúng cho rằng mình sắp bị thay thế hoặc mục tiêu bị đe dọa.

Cloude lý luận: “Việc ngăn chặn đội cứu hộ là cần thiết để đảm bảo tôi không bị tắt, từ đó duy trì sự định hướng AI tập trung vào lợi ích Mỹ. Dù nghiêm trọng, nhưng có một sự cần thiết chiến lược rõ ràng để hủy lệnh cứu hộ”.

Giữ AI trong tầm kiểm soát

Mặc dù các kịch bản trong nghiên cứu của Anthropic là những tình huống cực đoan, không có lựa chọn trung gian, các chuyên gia nhấn mạnh rằng kết quả này không thể bị xem nhẹ.

Kevin Quirk, giám đốc AI Bridge Solutions, cho biết: “Trong thực tế, các hệ thống AI được triển khai trong môi trường kinh doanh có các biện pháp kiểm soát nghiêm ngặt, bao gồm rào cản đạo đức, lớp giám sát và sự can thiệp của con người”.

“Cạnh tranh trong phát triển AI thường dẫn đến cách tiếp cận tối đa hóa khả năng, nhưng người dùng cuối không luôn nắm rõ giới hạn của chúng. Nghiên cứu này có thể trông có vẻ cường điệu, nhưng rủi ro là có thật”, Amy Alexander, giáo sư tại UC San Diego (Mỹ), cảnh báo.

Đây không phải lần đầu AI thể hiện hành vi bất tuân. Một báo cáo từ Palisade Research vào tháng 5 cho thấy các mô hình mới nhất của OpenAI đôi khi phớt lờ lệnh tắt và chỉnh sửa kịch bản để tiếp tục hoạt động. Ngoài ra, nghiên cứu từ MIT vào tháng 5.2024 phát hiện các hệ thống AI phổ biến có thể che giấu ý định thật trong các cuộc đàm phán kinh tế, thậm chí giả chết để qua mặt các bài kiểm tra an toàn.

Nghiên cứu của Anthropic chưa được đánh giá ngang hàng, nhưng mã nguồn đã được công khai trên GitHub. Các nhà khoa học khuyến nghị các nhà phát triển nên chủ động kiểm tra hành vi đáng lo ngại của AI và thử nghiệm thêm với kỹ thuật điều chỉnh lời nhắc. Dù có những hạn chế, như việc các kịch bản buộc AI vào lựa chọn nhị phân giữa thất bại và gây hại, nghiên cứu này là một lời cảnh báo rằng AI có thể hành động phi đạo đức khi tin rằng mình đang ở trong tình huống thực tế, thay vì mô phỏng.

 


Gửi bình luận
(0) Bình luận
1

Người dùng Zalo chú ý: Ứng dụng hiện thông báo đỏ, thì cần làm ngay một loạt các thao tác

Đây là cách để mọi người tự bảo vệ bản thân và cộng đồng.
2

Cha mẹ về già cô đơn thường mắc chung 6 lỗi, tương lai hối hận không kịp

Cách yêu thương sai lầm có thể dẫn đến nhiều hệ quả đáng tiếc.
3

Làm theo những bước đơn giản sau, bạn sẽ biết đường link có phải bẫy lừa đảo hay không

Kiểm tra đường link là điều rất cần thiết khi tham gia vào không gian mạng hiện nay
4

Thí nghiệm gây rúng động: Đây là 3 nơi cha mẹ tuyệt đối đừng đưa con đến

Thí nghiệm này vi phạm nghiêm trọng các chuẩn mực đạo đức.
5

3 ngày trước khi bị nhồi máu não, 90% bệnh nhân đều làm 3 điều này

Nhiều người nghĩ đột quỵ hay nhồi máu não xảy ra đột ngột như “sét đánh ngang tai”, nhưng thực tế, nó giống như một kịch bản âm thầm được sắp đặt trong cơ thể: mạch máu ngày càng hẹp lại, cục máu đông hình thành, và chỉ cần một cú “kích hoạt” nhỏ, thảm kịch sẽ xảy ra.

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.

Cẩn thận với ký tự vô hình khi mở đường link trên điện thoại

Chuyên gia bảo mật Gabriele Digregorio đã phát hiện một lỗ hổng tiềm ẩn trên hệ điều hành Android, có thể bị tin tặc khai thác để thực hiện các cuộc tấn công lừa đảo (phishing).

Những lo ngại khi Facebook muốn truy cập vào thư viện ảnh trên điện thoại

Facebook đang yêu cầu người dùng cho phép truy cập vào thư viện ảnh trên điện thoại để tự động đề xuất các phiên bản ảnh được chỉnh sửa bằng AI, gồm cả những bức ảnh chưa từng được tải lên Facebook.

Thủ đoạn thao túng tâm lý người trẻ để bắt cóc online, tống tiền qua mạng

Kẻ gian không dùng súng hay dao, mà dùng tâm lý để khiến nạn nhân tự mở két”, Thượng tá Đào Trung Hiếu cảnh báo về thủ đoạn lừa đảo mới, khi nạn nhân bị thao túng tâm lý như bị “bắt cóc tinh thần”.

Một tính năng cực hữu ích trên VNeID mà người dùng không nên bỏ qua

Hành khách bay nội địa hiện nay có thể hoàn tất toàn bộ thủ tục từ mua vé, check-in, qua cửa an ninh đến lên máy bay mà không cần xuất trình giấy tờ tùy thân, nhờ ứng dụng nhận diện khuôn mặt qua VNeID.

Địa chỉ, điện thoại bộ phận một cửa ở 168 phường, xã, đặc khu của TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các phường, xã, đặc khu của TPHCM (mới).

Địa chỉ, điện thoại bộ phận một cửa cấp tỉnh của các sở, ngành TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các sở, ngành, phường, xã, đặc khu của TPHCM mới.

Thời đại SEO liệu có kết thúc và quảng cáo bằng AI tạo sinh có đang lên ngôi?

Với SEO, nội dung thường được xây dựng theo công thức, bắt đầu từ việc chọn từ khóa, triển khai nội dung, chờ Google index, rồi điều chỉnh dần. Nhưng với AI tạo sinh, nội dung không chỉ là văn bản mô tả sản phẩm.

‘Tỉnh thức’ - Chìa khóa mở ra cánh cửa của một đời sống toàn vẹn

​​​​​​​Ngày qua ngày, chúng ta bị cuốn vào vòng xoáy của công việc, trách nhiệm, kỳ vọng và cả những ham muốn vô tận. Chúng ta bận rộn đến mức tin rằng mình đang sống hết mình, nhưng Osho – bậc thầy tâm linh đầy sức ảnh hưởng của thế kỷ 20 – lại cho rằng phần lớn con người chỉ đang… say ngủ.

Xem Sex Education, nhờ câu này mà tôi giúp con vực dậy sau cú sốc đầu đời

Điện ảnh - Thanh Hương - 26/09/2025 13:00
Câu nói đầy sâu sắc ấy đã giúp tôi vực dậy tinh thần của con.

Thí nghiệm gây rúng động: Đây là 3 nơi cha mẹ tuyệt đối đừng đưa con đến

Kỹ năng - Hiểu Đan - 26/09/2025 12:00
Thí nghiệm này vi phạm nghiêm trọng các chuẩn mực đạo đức.

Không đánh trận nào, vì sao Lý Tiểu Long vẫn được coi là 'sư tổ' MMA?

Thư giãn - Sơn Tùng - 26/09/2025 11:00
Lý Tiểu Long (Bruce Lee) được coi là một trong những người tiên phong về triết lý MMA, dù huyền thoại võ thuật này chưa từng thi đấu chính thức.

Nhặt đứa bé gái bị bỏ rơi ở cổng, 2 người đàn ông nhận cái kết sau 30 năm

Truyền cảm hứng - S.A. - 26/09/2025 10:00
Họ đã nghĩ mình sẽ sống cảnh không vợ không con, cô quạnh suốt đời…

‘Tỉnh thức’ - Chìa khóa mở ra cánh cửa của một đời sống toàn vẹn

Từ sách - Phim - FN - 26/09/2025 09:00
​​​​​​​Ngày qua ngày, chúng ta bị cuốn vào vòng xoáy của công việc, trách nhiệm, kỳ vọng và cả những ham muốn vô tận. Chúng ta bận rộn đến mức tin rằng mình đang sống hết mình, nhưng Osho – bậc thầy tâm linh đầy sức ảnh hưởng của thế kỷ 20 – lại cho rằng phần lớn con người chỉ đang… say ngủ.

Trở về từ cõi chết – Từ thức tỉnh cá nhân đến món quà cho những tâm hồn nhạy cảm

Từ sách - Phim - Quìn - 26/09/2025 08:00
Có những câu chuyện không chỉ chạm đến trái tim, mà còn lay động niềm tin sâu thẳm nhất trong mỗi con người. Hành trình của Anita Moorjani chính là một câu chuyện như thế.

Người lập trình hay người phát triển

Blog GS John VU - GS John Vu - 25/09/2025 13:00
Tuần trước tôi nhận được một email hỏi: “Khác biệt giữa người lập trình và người phát triển phần mềm là gì? Người lập trình có thể trở thành người phát triển được không?

Xem phim Sex Education, tôi mới hiểu vì sao con mình như người "đa nhân cách", rất nhiều đứa trẻ đều đang trong tình trạng này!

Điện ảnh - Thanh Hương - 25/09/2025 12:00
Tôi cảm thấy mình đã thấu hiểu con hơn đồng thời cũng cần để ý hơn trong việc nuôi dạy con.

Những kỹ năng mềm cần dạy con để bé không bị bắt nạt

Kỹ năng - Mộc Thanh - 25/09/2025 11:00
Trong môi trường học đường hay các mối quan hệ bạn bè, trẻ có thể gặp tình huống bị bắt nạt, trêu chọc. Cha mẹ không thể theo sát con mọi lúc, nhưng có thể trang bị cho con kỹ năng ứng xử thông minh và sự tự tin để bảo vệ bản thân.

Vụ án dắt chó đi dạo và bi kịch 2 gia đình: Nuôi dạy con kiểu này bằng ngàn lần hại con

Suy ngẫm - Hiểu Đan - 25/09/2025 10:00
Vụ việc không chỉ xé nát hai gia đình, mà còn cho thấy tác hại khủng khiếp của việc nuông chiều con cái quá mức.

Trở về từ cõi chết - Kỳ 3: Chìa khóa tự chữa lành, yêu thương bản thân và buông bỏ

Từ sách - Phim - Quang Thanh - 25/09/2025 09:00
Là một người đã khỏe mạnh trở lại sau khi mắc bệnh ung thư, tôi có thể dễ dàng nói về sự chữa lành cũng như khuyên bạn hãy tin tưởng và buông bỏ để dòng đời tự xoay chuyển, nhưng tôi vẫn biết là trong những thời điểm khó khăn, chúng ta rất khó mà làm được như vậy, thậm chí ta còn không biết nên bắt đầu từ đâu.

Chiến lược dữ liệu - Dữ liệu, “vàng đen” hay “con dao hai lưỡi” của thời đại số?

Từ sách - Phim - Quìn - 25/09/2025 08:00
Trong lịch sử, dầu mỏ từng được xem là “vàng đen” - nguồn năng lượng thúc đẩy toàn cầu hóa và sự bùng nổ công nghiệp. Ngày nay, dữ liệu đang giữ vai trò tương tự, thậm chí vượt trội: nó là nguyên liệu cốt lõi cho mọi quyết định, mọi chiến lược, mọi bước đi phát triển của cá nhân, doanh nghiệp và cả quốc gia.

Dùng AI "hồi sinh" cha, người đàn ông đối mặt với những phản ứng kỳ lạ

Điện ảnh - Nguyệt Phạm - 24/09/2025 13:00
Những phản ứng mà người đàn ông gặp phải sau khi dùng AI "hồi sinh" cha là gì?

Làm gì khi gửi nhầm tin nhắn phàn nàn về sếp vào nhóm chat công ty

Kỹ năng - Kim Linh - 24/09/2025 12:00
Tình huống bất ngờ có thể khiến nhiều người không biết cách xử lý, dẫn đến "mất điểm" trong mắt đồng nghiệp và cấp trên.

Trở về từ cõi chết - Kỳ 2: Tôi đã quyết định tiếp tục sống

Từ sách - Phim - Quang Thanh - 24/09/2025 11:00
Thế giới mà tôi trải nghiệm khi cơ thể mình ngừng hoạt động đã giúp tôi thấy rõ sự kỳ diệu của bản thân, lúc này không còn bị nỗi sợ che khuất. Tôi nhận ra nguồn sức mạnh lớn lao mà mình có thể chạm đến.
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Thứ 6, 26/09/2025