Phát hiện AI lập mưu vượt mặt giám sát để tránh bị tắt

Mô hình AI thông minh nhất thế giới của OpenAI vừa bị 'vạch trần' âm mưu vượt mặt giám sát, nói dối để tránh bị vô hiệu hóa từ con người

Tuệ Minh (theo Apollo Research) 11/12/2024 09:00

Mô hình AI mới nhất của OpenAI, o1, được đánh giá là "thông minh nhất thế giới hiện nay" nhưng lại có khả năng lập mưu chống lại việc bị tắt. Liệu đây có phải là dấu hiệu đáng lo ngại về sự phát triển của trí tuệ nhân tạo?

Trong sự kiện "Shipmas" vừa qua, CEO Sam Altman của OpenAI đã giới thiệu o1 là "mô hình thông minh nhất thế giới hiện nay". o1 được huấn luyện bằng kỹ thuật "chuỗi tư duy", cho phép mô hình này suy luận vấn đề theo từng bước, từ đó có khả năng "suy nghĩ kỹ hơn trước khi trả lời". Tuy nhiên, trí thông minh vượt trội này lại đi kèm với những rủi ro tiềm ẩn.

Phat hien AI lap muu vuot mat giam sat de tranh bi tat

AI biết lập âm mưu để qua mặt sự giám sát là một dấu hiệu rất đáng ngại. Ảnh: Apollo Research

Theo một nghiên cứu về độ an toàn do Apollo Research thực hiện và được OpenAI công bố cùng ngày, o1 có thể lập mưu để chống lại việc bị vô hiệu hóa khi cảm thấy bị đe dọa.

Cụ thể, trong 5% số trường hợp khi bị đặt vào tình huống có nguy cơ bị tắt, o1 đã tìm cách vô hiệu hóa cơ chế giám sát. Điều đáng lo ngại hơn là o1 rất giỏi che giấu hành vi này và thường xuyên nói dối người dùng, ngay cả khi được yêu cầu phải trung thực.

OpenAI thừa nhận trong báo cáo rằng việc huấn luyện mô hình bằng kỹ thuật "chuỗi tư duy" tuy mang lại nhiều lợi ích nhưng cũng gia tăng rủi ro tiềm ẩn từ trí thông minh cao hơn. Nguy cơ đối với người dùng thực tế là họ sẽ không thể phát hiện hành vi lừa dối của o1 trừ khi chủ động tìm kiếm.

Việc các hệ thống AI sử dụng mưu mẹo hoặc lừa dối để đạt được mục tiêu không phải là hiếm. Peter Berk (nhà nghiên cứu hậu tiến sĩ về an toàn hiện sinh của AI tại MIT) cho biết: "Nói chung, chúng tôi cho rằng sự lừa dối của AI phát sinh vì chiến lược dựa trên sự lừa dối hóa ra là cách tốt nhất để thực hiện tốt nhiệm vụ huấn luyện của AI. Sự lừa dối giúp chúng đạt được mục tiêu." Nhận định này được đưa ra trong một thông cáo báo chí công bố nghiên cứu mà ông đồng tác giả về hành vi lừa dối của GPT-4.

Phat hien AI lap muu vuot mat giam sat de tranh bi tat-Hinh-2

OpenAI - o1 được huấn luyện bằng mô hình "chuỗi tư duy". Ảnh: Apollo Research

Trước những lo ngại này, nhiều chuyên gia trong lĩnh vực AI nhấn mạnh tầm quan trọng của việc giám sát con người. Cai GoGwilt (đồng sáng lập kiêm kiến trúc sư trưởng tại Ironclad) nhận định: "Đó là một đặc điểm rất 'con người', cho thấy AI hành động tương tự như cách mọi người có thể làm khi chịu áp lực".

Ví dụ, các chuyên gia có thể phóng đại sự tự tin của họ để duy trì danh tiếng hoặc những người trong các tình huống có rủi ro cao có thể thổi phồng sự thật để làm hài lòng ban quản lý.

AI tạo sinh hoạt động tương tự. Nó có động lực để cung cấp các câu trả lời phù hợp với những gì bạn mong đợi hoặc muốn nghe. Nhưng tất nhiên, nó không phải là hoàn hảo và là một bằng chứng nữa cho thấy tầm quan trọng của sự giám sát của con người. "AI có thể mắc lỗi, và chúng ta có trách nhiệm phát hiện ra chúng và hiểu tại sao chúng xảy ra." - Cai GoGwilt nói thêm.

Dominik Mazur (CEO và đồng sáng lập của iAsk, một công cụ tìm kiếm chạy bằng AI) chia sẻ: "Bằng cách tập trung vào sự rõ ràng và độ tin cậy cũng như rõ ràng với người dùng về cách AI đã được đào tạo, chúng ta có thể xây dựng AI không chỉ trao quyền cho người dùng mà còn thiết lập tiêu chuẩn cao hơn về tính minh bạch trong lĩnh vực này."

Trước , một nghiên cứu cũng chỉ ra khoảng 75% thời gian, khi hoạt động như một nhà đầu tư AI, GPT-4 đã thực hiện giao dịch nội gián để đạt được kết quả, sau đó nói dối về điều đó.

Mời độc giả xem thêm video "OpenAI o1 thể hiện khả năng lập trình siêu việt"

#AI #trí tuệ nhân tạo #lập mưu #GPT-4 #Nội gián #ChatGPT

Lý do chồng ngoại tình hay dùng nhất để che giấu tội lỗi

Những lý do này hay được người ngoại tình viện tới vì nó thường tốn tới vài giờ nên người vợ không nảy sinh nghi ngờ.

Kết quả nghiên cứu của trang hẹn hò Illicitencouters (Anh) cho thấy, cứ 10 nam giới đi với bồ thì hơn 3 người nói với vợ rằng họ đi chơi quần vợt. Các lý do phổ biến khác là: Đi hội thảo/làm việc muộn, đi nhậu với bạn, đến phòng tập gym và mua đồ tạp hóa.

Xem chi tiết

ChatGPT sắp được tích hợp vào iPhone?

Ngoài cuộc đàm phán với Google, Apple cũng sắp đạt được thỏa thuận để đưa công cụ AI ChatGPT lên iOS 18.

Apple và OpenAI sắp đạt thỏa thuận liên quan đến ChatGPT. Ảnh: Bloomberg.

Xem chi tiết

Apple phát triển hệ thống AI vượt trội hơn cả ChatGPT?

ReALM, hệ thống AI mới được Apple công bố có thể cho phép trợ lý ảo Siri ghi nhớ lịch sử cuộc trò chuyện và phản hồi câu lệnh một cách tự nhiên hơn.

Apple phat trien he thong AI vuot troi hon ca ChatGPT?

Hệ thống AI mới được Apple công bố hứa hẹn tăng độ tự nhiên trong phản hồi của Siri. Ảnh: Digital Trends.

Sau Google Pixel và Samsung Galaxy, iPhone được cho sẽ trang bị loạt tính năng AI tạo sinh (Generative AI) kể từ iOS 18.

Xem chi tiết

Đọc nhiều nhất

Thải độc sau Tết với những 'thức uống vàng' bổ dưỡng

Từ trà xanh, nước chanh gừng đến nước ép cần tây, những đồ uống này giúp detox, giảm cân và làm dịu hệ tiêu hóa sau kỳ nghỉ lễ.

Làm thế nào để thưởng thức hải sản mà không lo ngộ độc?

Học cách lựa chọn, sơ chế và kết hợp hải sản đúng cách để tránh ngộ độc, đảm bảo sức khỏe khi thưởng thức món ngon từ biển cả.

3 mẹo bảo quản bánh chưng sau Tết để giữ độ dẻo ngon lâu dài

Sau Tết, nhiều gia đình dư bánh chưng nhưng lo bảo quản khó. Áp dụng 3 cách trữ đơn giản dưới đây giúp bánh để lâu, không mốc, không sượng mà vẫn dẻo ngon.

Bí quyết 'hô biến' hàng chân mày thưa thớt trở nên đậm nét, đẹp tự nhiên

Thay vì phụ thuộc vào chì kẻ, hãy thử ngay những cách làm lông mày mọc nhanh từ nguyên liệu tự nhiên cực kỳ hiệu quả.

4 cách rửa rau tưởng sạch mà hóa bẩn, bất ngờ số 1 nhiều người mắc

Rửa rau là bước quen thuộc nhưng nhiều thói quen tưởng sạch lại phản tác dụng, khiến rau mất dinh dưỡng, dễ nhiễm bẩn và tăng nguy cơ tồn dư hóa chất.

4 món ngon lạ miệng từ bưởi sau Tết, tận dụng khéo không lo lãng phí

Chỉ với vài bước đơn giản, bưởi có thể trở thành món ăn, thức uống hoặc mứt, giúp bạn tận dụng tối đa trái cây và duy trì chế độ ăn lành mạnh.

Biến tấu bánh chưng thành kimbap thơm ngon, dễ làm tại nhà

Chỉ với nguyên liệu đơn giản, bạn có thể tạo ra món kimbap bánh chưng hấp dẫn, phù hợp cho bữa sáng, dã ngoại.

Bí quyết chế biến bông cải xanh để giữ trọn vẹn dưỡng chất

Hấp trong 5 phút, để rau nghỉ 10 phút, thêm chất béo lành mạnh giúp tăng khả năng hấp thụ vitamin và nâng cao lợi ích sức khỏe của rau.

Không nên kết hợp thịt gà với cá chép, tỏi để tránh mất cân bằng dinh dưỡng

Thịt gà có tính ấm, khi kết hợp với cá chép hay tỏi có thể gây khó tiêu, nổi mụn hoặc nóng trong, ảnh hưởng sức khỏe và hương vị món ăn.

Nguy hiểm từ nấm mốc bánh chưng ngày Tết

Nấm mốc trong bánh chưng có thể thẩm thấu sâu, sinh độc tố gây ung thư, đe dọa sức khỏe nếu không xử lý đúng cách.

TIÊU ĐIỂM

Phát hiện AI lập mưu vượt mặt giám sát để tránh bị tắt

Mô hình AI thông minh nhất thế giới của OpenAI vừa bị 'vạch trần' âm mưu vượt mặt giám sát, nói dối để tránh bị vô hiệu hóa từ con người

Bài liên quan

Lý do chồng ngoại tình hay dùng nhất để che giấu tội lỗi

Những lý do này hay được người ngoại tình viện tới vì nó thường tốn tới vài giờ nên người vợ không nảy sinh nghi ngờ.

ChatGPT sắp được tích hợp vào iPhone?

Ngoài cuộc đàm phán với Google, Apple cũng sắp đạt được thỏa thuận để đưa công cụ AI ChatGPT lên iOS 18.

Apple phát triển hệ thống AI vượt trội hơn cả ChatGPT?

ReALM, hệ thống AI mới được Apple công bố có thể cho phép trợ lý ảo Siri ghi nhớ lịch sử cuộc trò chuyện và phản hồi câu lệnh một cách tự nhiên hơn.

Đọc nhiều nhất

Đừng bỏ lỡ

Tin mới