Phát hiện AI lập mưu vượt mặt giám sát để tránh bị tắt

Google News

Mô hình AI thông minh nhất thế giới của OpenAI vừa bị 'vạch trần' âm mưu vượt mặt giám sát, nói dối để tránh bị vô hiệu hóa từ con người

Mô hình AI mới nhất của OpenAI, o1, được đánh giá là "thông minh nhất thế giới hiện nay" nhưng lại có khả năng lập mưu chống lại việc bị tắt. Liệu đây có phải là dấu hiệu đáng lo ngại về sự phát triển của trí tuệ nhân tạo?
Trong sự kiện "Shipmas" vừa qua, CEO Sam Altman của OpenAI đã giới thiệu o1 là "mô hình thông minh nhất thế giới hiện nay". o1 được huấn luyện bằng kỹ thuật "chuỗi tư duy", cho phép mô hình này suy luận vấn đề theo từng bước, từ đó có khả năng "suy nghĩ kỹ hơn trước khi trả lời". Tuy nhiên, trí thông minh vượt trội này lại đi kèm với những rủi ro tiềm ẩn.
Phat hien AI lap muu vuot mat giam sat de tranh bi tat
AI biết lập âm mưu để qua mặt sự giám sát là một dấu hiệu rất đáng ngại. Ảnh: Apollo Research 
Theo một nghiên cứu về độ an toàn do Apollo Research thực hiện và được OpenAI công bố cùng ngày, o1 có thể lập mưu để chống lại việc bị vô hiệu hóa khi cảm thấy bị đe dọa.
Cụ thể, trong 5% số trường hợp khi bị đặt vào tình huống có nguy cơ bị tắt, o1 đã tìm cách vô hiệu hóa cơ chế giám sát. Điều đáng lo ngại hơn là o1 rất giỏi che giấu hành vi này và thường xuyên nói dối người dùng, ngay cả khi được yêu cầu phải trung thực.
OpenAI thừa nhận trong báo cáo rằng việc huấn luyện mô hình bằng kỹ thuật "chuỗi tư duy" tuy mang lại nhiều lợi ích nhưng cũng gia tăng rủi ro tiềm ẩn từ trí thông minh cao hơn. Nguy cơ đối với người dùng thực tế là họ sẽ không thể phát hiện hành vi lừa dối của o1 trừ khi chủ động tìm kiếm.
Việc các hệ thống AI sử dụng mưu mẹo hoặc lừa dối để đạt được mục tiêu không phải là hiếm. Peter Berk (nhà nghiên cứu hậu tiến sĩ về an toàn hiện sinh của AI tại MIT) cho biết: "Nói chung, chúng tôi cho rằng sự lừa dối của AI phát sinh vì chiến lược dựa trên sự lừa dối hóa ra là cách tốt nhất để thực hiện tốt nhiệm vụ huấn luyện của AI. Sự lừa dối giúp chúng đạt được mục tiêu." Nhận định này được đưa ra trong một thông cáo báo chí công bố nghiên cứu mà ông đồng tác giả về hành vi lừa dối của GPT-4.
Phat hien AI lap muu vuot mat giam sat de tranh bi tat-Hinh-2
OpenAI - o1 được huấn luyện bằng mô hình "chuỗi tư duy". Ảnh: Apollo Research 
Trước những lo ngại này, nhiều chuyên gia trong lĩnh vực AI nhấn mạnh tầm quan trọng của việc giám sát con người. Cai GoGwilt (đồng sáng lập kiêm kiến trúc sư trưởng tại Ironclad) nhận định: "Đó là một đặc điểm rất 'con người', cho thấy AI hành động tương tự như cách mọi người có thể làm khi chịu áp lực".
Ví dụ, các chuyên gia có thể phóng đại sự tự tin của họ để duy trì danh tiếng hoặc những người trong các tình huống có rủi ro cao có thể thổi phồng sự thật để làm hài lòng ban quản lý.
AI tạo sinh hoạt động tương tự. Nó có động lực để cung cấp các câu trả lời phù hợp với những gì bạn mong đợi hoặc muốn nghe. Nhưng tất nhiên, nó không phải là hoàn hảo và là một bằng chứng nữa cho thấy tầm quan trọng của sự giám sát của con người. "AI có thể mắc lỗi, và chúng ta có trách nhiệm phát hiện ra chúng và hiểu tại sao chúng xảy ra." - Cai GoGwilt nói thêm.
Dominik Mazur (CEO và đồng sáng lập của iAsk, một công cụ tìm kiếm chạy bằng AI) chia sẻ: "Bằng cách tập trung vào sự rõ ràng và độ tin cậy cũng như rõ ràng với người dùng về cách AI đã được đào tạo, chúng ta có thể xây dựng AI không chỉ trao quyền cho người dùng mà còn thiết lập tiêu chuẩn cao hơn về tính minh bạch trong lĩnh vực này."
Trước , một nghiên cứu cũng chỉ ra khoảng 75% thời gian, khi hoạt động như một nhà đầu tư AI, GPT-4 đã thực hiện giao dịch nội gián để đạt được kết quả, sau đó nói dối về điều đó.

Mời độc giả xem thêm video "OpenAI o1 thể hiện khả năng lập trình siêu việt"


Tuệ Minh (theo Apollo Research)

>> xem thêm

Bình luận(0)