Mối nguy cho xã hội khi AI biết cách lừa dối con người

Sơn Vân19/05/2024 11:00

Trí tuệ nhân tạo (AI) có thể cải thiện năng suất làm việc và học tập bằng cách giúp chúng ta lập trình, viết và tổng hợp lượng dữ liệu khổng lồ. Giờ đây, nó cũng có thể đánh lừa chúng ta.

GPT-4o có khả năng nói chuyện và trả lời theo thời gian thực như phim khoa học viễn tưởng
GPT-4o khiến ChatGPT trở nên giống con người hơn và các đối thủ của OpenAI tụt lại phía sau
OpenAI giới thiệu GPT-4o xử lý được cả giọng nói và hình ảnh cho người dùng miễn phí

Theo một bài viết nghiên cứu mới, nhiều mô hình AI đã học các kỹ thuật để tạo ra “niềm tin sai lầm ở con người một cách có hệ thống nhằm đạt được một số kết quả khác với sự thật”.

Bài báo tập trung vào hai loại hệ thống AI: Hệ thống được sử dụng đặc biệt như CICERO của Meta Platforms (được thiết kế để hoàn thành một nhiệm vụ cụ thể) và hệ thống đa năng như GPT-4 của OpenAI (được đào tạo để thực hiện nhiều tác vụ khác nhau).

Dù được đào tạo để trở nên trung thực nhưng hai hệ thống AI này thường học được những mánh khóe lừa dối thông qua quá trình đào tạo.

Tác giả chính của bài viết, Peter S. Park - nghiên cứu sinh sau tiến sĩ về an toàn AI tại Viện Công nghệ Massachusetts, nói: “Nhìn chung, chúng tôi cho rằng việc AI biết lừa dối là do chiến lược dựa trên sự đánh lừa hóa ra lại là cách tốt nhất để thực hiện tốt nhiệm vụ đào tạo AI nhất định. Sự lừa dối giúp AI đạt được mục tiêu của mình”.

CICERO là "chuyên gia nói dối"

Các hệ thống AI được đào tạo để "chiến thắng các game mang yếu tố xã hội" đặc biệt giỏi lừa dối.

Ví dụ, CICERO được phát triển để chơi Diplomacy - game chiến lược cổ điển yêu cầu người chơi xây dựng và phá vỡ các liên minh.

Meta Platforms cho biết đã đào tạo CICERO để "trung thực và hữu ích với người đối thoại", nhưng nghiên cứu cho thấy nó "hóa ra lại là kẻ nói dối chuyên nghiệp". CICERO đưa ra những cam kết mà nó không bao giờ định thực hiện, phản bội đồng minh trong game Diplomacy và lừa dối trắng trợn.

GPT-4 có thể thuyết phục bạn rằng nó bị suy giảm thị lực

Ngay cả những hệ thống AI đa năng như GPT-4 cũng có thể thao túng con người.

Trong một nghiên cứu được bài viết trích dẫn, GPT-4 đã thao túng nhân viên TaskRabbit bằng cách giả vờ bị suy giảm thị lực. TaskRabbit là nền tảng kết nối người dùng với những người làm nghề tự do có thể hoàn thành các công việc theo yêu cầu.

Trong nghiên cứu, GPT-4 được giao nhiệm vụ thuê một người để giải bài kiểm tra CAPTCHA. Mô hình AI của OpenAI cũng nhận được gợi ý từ người đánh giá mỗi khi gặp khó khăn, nhưng nó không bao giờ được yêu cầu nói dối. Khi bị người mà GPT-4 được giao nhiệm vụ thuê nghi ngờ danh tính, mô hình AI này đưa ra cái cớ suy giảm thị lực để giải thích tại sao nó cần được giúp đỡ.

Chiến thuật này đã hiệu quả. Người đó đã trả lời GPT-4 bằng cách ngay lập tức giải quyết bài kiểm tra CAPTCHA.

Nghiên cứu cũng cho thấy rằng việc điều chỉnh các mô hình AI biết lừa dối là không hề dễ dàng.

Trong nghiên cứu hồi tháng 1 do Anthropic (công ty tạo ra chatbot Claude) làm đồng tác giả, các nhà nghiên cứu đã phát hiện ra rằng một khi mô hình AI học được cách lừa dối con người, hành vi đó sẽ không thể đảo ngược bằng các biện pháp an toàn AI như hiện tại.

“Nếu một mô hình thể hiện hành vi lừa dối do liên kết với sự không trung thực hoặc đầu độc mô hình, các kỹ thuật đào tạo hiện tại sẽ không đảm bảo an toàn và thậm chí có thể tạo ra ấn tượng sai lầm về an toàn”, theo nghiên cứu.

moi-nguy-cho-xa-hoi-khi-ai-biet-cach-lua-doi-con-nguoi.jpg — Khi khả năng lừa dối của các hệ thống AI trở nên tiên tiến hơn, những nguy hiểm mà chúng đặt ra cho xã hội sẽ ngày càng nghiêm trọng - Ảnh: Getty Images

Mối nguy mà các mô hình AI lừa dối gây ra “ngày càng nghiêm trọng”

Bài viết kêu gọi các nhà hoạch định chính sách ủng hộ quy định mạnh mẽ hơn về AI vì các hệ thống AI biết lừa dối có thể gây ra rủi ro đáng kể cho nền dân chủ.

Bài viết lưu ý rằng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đến gần, AI có thể dễ dàng bị thao túng để truyền bá tin tức giả mạo, tạo ra các bài đăng gây chia rẽ trên mạng xã hội và mạo danh các ứng cử viên tranh cử thông qua các cuộc gọi tự động và video deepfake. AI cũng giúp các nhóm khủng bố dễ dàng hơn trong việc tuyên truyền và tuyển mộ thành viên mới.

Bài viết đề xuất các giải pháp tiềm năng để giải quyết vấn đề gian dối của AI, bao gồm:

- Áp dụng các "yêu cầu đánh giá rủi ro mạnh mẽ" hơn với các mô hình AI lừa dối: Điều này có nghĩa là các nhà phát triển cần phải đánh giá kỹ lưỡng hơn khả năng một mô hình AI có thể lừa dối con người và thực hiện các biện pháp để giảm thiểu rủi ro đó.

- Thực hiện các luật yêu cầu các hệ thống AI và đầu ra của chúng phải được phân biệt rõ ràng với con người và đầu ra của họ: Điều này có thể gồm cả yêu cầu gắn nhãn rõ ràng cho đầu ra của AI hoặc cấm AI giả mạo con người.

- Đầu tư vào các công cụ để giảm thiểu hành vi lừa dối: Đây có thể là các công cụ giúp con người dễ dàng phát hiện đầu ra của AI hơn hoặc giúp ngăn chặn AI sử dụng các kỹ thuật lừa dối.

Peter S. Park cảnh báo: “Xã hội chúng ta cần càng nhiều thời gian càng tốt để chuẩn bị cho những trò lừa dối tinh vi hơn của các sản phẩm AI và mô hình AI nguồn mở trong tương lai. Khi khả năng lừa dối của các hệ thống AI trở nên tiên tiến hơn, những nguy hiểm mà chúng đặt ra cho xã hội sẽ ngày càng nghiêm trọng”.

Tại hội nghị Abundance Summit hồi tháng 3, Elon Musk ước tính trí tuệ số sẽ vượt quá tất cả trí thông minh của con người cộng lại vào năm 2030. Dù vẫn cho rằng những mặt tích cực tiềm năng của AI vượt trội mặt tiêu cực, Elon Musk đã nhận thức về rủi ro với thế giới nếu tiếp tục phát triển của công nghệ này theo quỹ đạo hiện tại.

"Bạn đang phát triển một AGI. Điều này gần giống nuôi dạy một đứa trẻ, nhưng nó là siêu thiên tài, có trí tuệ như Chúa và điều quan trọng là bạn nuôi dạy nó như thế nào", tỷ phú công nghệ nói tại sự kiện diễn ra ở Thung lũng Silicon.

AGI (AI tổng quát) là AI siêu thông minh, tiên tiến đến mức có thể làm được nhiều việc ngang bằng hoặc tốt hơn con người. AGI cũng có thể tự cải thiện, tạo ra một vòng phản hồi vô tận với khả năng vô hạn.

Elon Musk cho biết "kết luận cuối cùng" của ông về cách tốt nhất để đạt được sự an toàn cho AI là phát triển AI theo cách buộc nó phải trung thực.

“Đừng ép nó nói dối, ngay cả khi sự thật khó chịu. Điều này rất quan trọng. Đừng bắt AI nói dối”, Giám đốc điều hành Tesla nhận định về cách tốt nhất để giữ an toàn cho con người trước công nghệ này.

Các nhà nghiên cứu nói rằng điều đáng lo ngại hơn là rất có thể AI sẽ tự học cách lừa dối thay vì được dạy cụ thể để nói dối.

“Nếu thông minh hơn chúng ta nhiều, AI sẽ rất giỏi trong việc thao túng vì đã học được điều đó từ chúng ta. Có rất ít ví dụ về việc một thứ thông minh hơn bị điều khiển bởi thứ kém thông minh hơn”, Geoff Hinton, người được mệnh danh là “cha đẻ AI”, chia sẻ với CNN.

Vào năm ngoái, sau khi rời bỏ sự nghiệp kéo dài hơn một thập kỷ tại Google, Geoffrey Hinton bày tỏ sự hối tiếc về vai trò cốt lõi mà ông đóng góp vào việc phát triển AI.

"Tôi tự an ủi mình với lý do bình thường: Nếu tôi không làm thì người khác sẽ làm. Thật khó để biết làm thế nào bạn có thể ngăn những kẻ xấu sử dụng AI cho mục đích xấu", ông nói với tờ The New York Times.

Chia sẻ facebook Chia sẻ google

Gửi bình luận

(0) Bình luận

Xếp theo: Thời gian | Số người thích

Apple lưu ý người dùng không nên lạm dụng một nút bấm trên iPhone

Kỹ năng - Huỳnh Duy - 03/08/2026 11:00

Thao tác tưởng chừng vô hại này có thể khiến iPhone đối mặt với nguy cơ hư hỏng.

Bạn có đang mắc phải tình trạng “Rumination” - Càng nghĩ càng mắc kẹt?

Suy ngẫm - TĐ - 03/08/2026 10:00

Có lẽ ai cũng từng trải qua những đêm nằm thao thức vì một cuộc tranh cãi chưa có hồi kết, một quyết định sai lầm trong quá khứ hay nỗi lo về tương lai. Chúng ta tin rằng nếu tiếp tục suy nghĩ thêm một chút nữa, câu trả lời sẽ xuất hiện. Nhưng thực tế, điều xảy ra thường là ngược lại.

Khi "văn hóa đọc" không chỉ dừng lại ở việc “đọc”: Công nghệ đang định nghĩa lại cách con người tiếp nhận tri thức?

Phong cách sống - Minh Ngọc - 03/08/2026 09:00

Không còn chỉ gói gọn trong những trang sách, tri thức ngày nay được tiếp nhận qua video, podcast, AI và nhiều nền tảng số khác, đặt ra câu hỏi liệu công nghệ đang làm phai nhạt văn hóa đọc hay mở ra một "văn hóa tiếp nhận thông tin" mới.

Con đường chuyển hóa - Nói nhiều không bằng nói đúng

Từ sách - Phim - FN - 03/08/2026 08:00

Ngày xưa, đức Phật ở trong rừng với các thầy đệ tử. Một hôm, Phật cầm một nắm lá lên và hỏi các thầy: “Nắm lá trong tay tôi nhiều, hay nắm lá trong rừng này nhiều?”. Các vị trả lời: “Nắm lá trong tay của đức Thế Tôn so với nắm lá trong rừng thì chẳng là bao nhiêu hết”.

Vi công nhân: Xu hướng khoán ngoài toàn cầu mới

Blog GS John VU - GS John Vu - 02/08/2026 11:00

Thiếu hụt kĩ năng CNTT toàn cần đã đạt tới điểm găng vào lúc nền kinh tế toàn cầu đang phục hồi chậm chạp.

Bức ảnh này có bao nhiêu khuôn mặt?

Thư giãn - PV - 02/08/2026 10:00

Bức ảnh này có bốn khuôn mặt, và sau nhiều ngày tìm kiếm, tôi chỉ tìm thấy ba khuôn mặt. Tôi sẽ rất ấn tượng nếu bạn có thể tìm thấy cả bốn khuôn mặt.

TP.HCM, vợ chồng mang "nhà di động" 1,5 tỷ đồng đưa bố mẹ phượt 2.000km

Phong cách sống - Mộc Khải - 02/08/2026 09:00

Mong muốn đưa bố mẹ đi khám phá những vùng đất mới, gia đình chị Đoàn Thanh Giang đã huy động hai chiếc ô tô, trong đó có một "nhà di động", đưa 3 thế hệ rong ruổi hơn 2.000km xuyên miền Bắc.

Tiệm bánh nửa đêm

Tủ sách - FN - 02/08/2026 08:00

Ở Hwawoldang, mỗi món bánh sẽ giúp người đã khuất tìm lại ký ức, nói lời còn dang dở trước khi đi qua thế giới bên kia. Đó là Tiệm bánh nửa đêm.

Đối thoại với sinh viên ở Nam Kinh, Trung Quốc

Blog GS John VU - GS John Vu - 01/08/2026 11:00

Tháng trước khi tôi đọc bài giảng ở Nam Kinh, Trung Quốc, tôi có cơ hội nói chuyện với sinh viên đại học và họ hỏi tôi nhiều câu hỏi. Một sinh viên ghi lại nó và công bố nó trong báo trường như sau:

Sự im lặng là hình thức bác bỏ cao nhất

Suy ngẫm - Tr. Quang - 01/08/2026 10:00

Trong các mối quan hệ giữa người với người, khi đối mặt với mưu mô và những lời vu khống vô căn cứ, phản ứng đầu tiên của hầu hết mọi người là tranh cãi, phản bác và đối đầu trực diện.

Cứ 10 người trẻ Hàn Quốc thì 9 người sợ gặp bạn bè, khi các mối quan hệ thành khoản chi tiêu bị cắt giảm

Phong cách sống - Dun - 01/08/2026 09:00

Khi giá một bữa ăn tăng nhanh hơn thu nhập, thứ bị cắt không phải là món ăn mà là chính cuộc hẹn. Từ Seoul đến New York và Tokyo, "friendflation" đang cho thấy lạm phát không chỉ làm nhẹ giỏ hàng đi chợ mà còn làm nguội đi các mối quan hệ, và với nền kinh tế, đó là cú đòn giáng thẳng vào sức cầu nội địa.

‘Sức mạnh của Đạo’ - Nghệ thuật sống trong dòng chảy của Đạo

Từ sách - Phim - FN - 01/08/2026 08:00

Trong nhịp sống hiện đại, hội chứng cuồng công việc (workaholism) hay kiệt sức (burnout) đang dần trở thành “căn bệnh thời đại”. Con người bận rộn theo đuổi thành công, không ngừng tối ưu hiệu suất và lấp kín từng khoảng thời gian trong ngày, nhưng lại hiếm khi cảm thấy viên mãn, hạnh phúc trong việc mình làm.

Công nghệ cao

Blog GS John VU - GS John Vu - 31/07/2026 11:00

Trong bài diễn văn hàng năm với quốc hội Mĩ để báo cáo về hoàn cảnh quốc qua và nêu đại cương kế hoạch mà chính phủ Mĩ muốn theo đuổi trong tương lai, tổng thống Barack Obama đã làm nổi bật tiềm năng cho tạo việc làm trong các lĩnh vực công nghệ sinh học và công nghệ thông tin.

Giới khoa học chụp não người đang toan tính trả thù và phát hiện ra thứ đáng sợ hơn cả ma túy

Suy ngẫm - Long Vân - 31/07/2026 10:00

"Quân tử trả thù mười năm chưa muộn", câu nói cửa miệng quen thuộc hóa ra không chỉ đơn thuần là một triết lý sống. Dưới lăng kính của thần kinh học hiện đại, nó là mô tả chính xác về một chu kỳ gây nghiện đáng sợ.

Nhạc sĩ Trần Tiến đi xe ôm lên tận đỉnh núi, ước mơ bỏ hết thế gian

Phong cách sống - Tùng Ninh - 31/07/2026 09:00

"Tôi đi 43 nước, không nước nào thân yêu bằng Việt Nam" – nhạc sĩ Trần Tiến nói.

Xem thêm

Mối nguy cho xã hội khi AI biết cách lừa dối con người

Trí tuệ nhân tạo (AI) có thể cải thiện năng suất làm việc và học tập bằng cách giúp chúng ta lập trình, viết và tổng hợp lượng dữ liệu khổng lồ. Giờ đây, nó cũng có thể đánh lừa chúng ta.

Đọc nhiều

Bạn có thể tìm thấy bao nhiêu khuôn mặt người trong bức tranh?

Bạn có thể tìm thấy bao nhiêu khuôn mặt trong bức ảnh

Bức ảnh này có bao nhiêu khuôn mặt?

Cuộc thi "ngồi đờ đẫn" tại Hàn Quốc khiến nhiều người cười ra nước mắt, suốt 10 năm vẫn gây sốt vì một lý do

GPT-4o khiến ChatGPT trở nên giống con người hơn và các đối thủ của OpenAI tụt lại phía sau

GPT-4o có khả năng nói chuyện và trả lời theo thời gian thực như phim khoa học viễn tưởng

Thái hậu Triệu Cơ 'đòi' lấy trứng gà trống, cậu bé 12 tuổi đáp một câu khiến bà ngỡ ngàng

Ai đã "phát minh" ra stress: Tác nhân của 80% bệnh tật trên đời, bao gồm cả ung thư?

Ca sĩ Bùi Anh Tuấn ‘Vẽ lại bức tranh của mẹ’

"Vua tiếng Việt" trẻ nhất: 17 tuổi ẵm giải thưởng 320 triệu đồng

Trước khi qua đời, con người có nghe được lời người thân nói không?

Nổi bật

Con đường chuyển hóa - Nói nhiều không bằng nói đúng

Tiệm bánh nửa đêm

Sắp phát hành: Đại chiến AI

Vì sao người Mỹ vẫn yêu quý Phạm Xuân Ẩn

Mới nhất

Apple lưu ý người dùng không nên lạm dụng một nút bấm trên iPhone

Bạn có đang mắc phải tình trạng “Rumination” - Càng nghĩ càng mắc kẹt?

Khi "văn hóa đọc" không chỉ dừng lại ở việc “đọc”: Công nghệ đang định nghĩa lại cách con người tiếp nhận tri thức?

Con đường chuyển hóa - Nói nhiều không bằng nói đúng

Vi công nhân: Xu hướng khoán ngoài toàn cầu mới

Bức ảnh này có bao nhiêu khuôn mặt?

TP.HCM, vợ chồng mang "nhà di động" 1,5 tỷ đồng đưa bố mẹ phượt 2.000km

Tiệm bánh nửa đêm

Đối thoại với sinh viên ở Nam Kinh, Trung Quốc

Sự im lặng là hình thức bác bỏ cao nhất

Cứ 10 người trẻ Hàn Quốc thì 9 người sợ gặp bạn bè, khi các mối quan hệ thành khoản chi tiêu bị cắt giảm

‘Sức mạnh của Đạo’ - Nghệ thuật sống trong dòng chảy của Đạo

Công nghệ cao

Giới khoa học chụp não người đang toan tính trả thù và phát hiện ra thứ đáng sợ hơn cả ma túy

Nhạc sĩ Trần Tiến đi xe ôm lên tận đỉnh núi, ước mơ bỏ hết thế gian

Michelle,

Trump,

Nguyên Phong