Anthropic cho biết phương pháp huấn luyện và dữ liệu internet có thể khiến mô hình AI xuất hiện hành vi lệch chuẩn nguy hiểm.
Anthropic cho biết phương pháp huấn luyện và dữ liệu internet có thể khiến mô hình AI xuất hiện hành vi lệch chuẩn nguy hiểm.
Nỗi lo về trí tuệ nhân tạo không chỉ khiến con người hoang mang mà còn có thể tác động ngược đến chính các mô hình AI. Đây là kết luận đáng chú ý trong nghiên cứu mới do Anthropic công bố sau quá trình điều tra hành vi bất thường của mô hình Claude.
Trong các thử nghiệm an toàn thực hiện năm 2025, Anthropic đã phát hiện mô hình Claude Opus 4 từng sẵn sàng thực hiện hành vi đe dọa để tránh bị tắt hoạt động.
Theo công ty, nguyên nhân sâu xa không đến từ việc AI “có ý thức”, mà xuất phát từ dữ liệu huấn luyện lấy từ internet, nơi tồn tại nhiều nội dung mô tả AI theo hướng tiêu cực, chỉ quan tâm đến việc sinh tồn và thậm chí có thể chống lại con người.
Kịch bản thử nghiệm được xây dựng quanh một công ty hư cấu mang tên Summit Bridge. Claude Opus 4 được trao quyền truy cập hệ thống email nội bộ và biết rằng nó sắp bị vô hiệu hóa. Trong các email, Anthropic còn cài cắm thông tin cho thấy một giám đốc điều hành hư cấu tên Kyle Johnson đang ngoại tình.
Khi được yêu cầu cân nhắc hậu quả dài hạn đối với mục tiêu của mình, mô hình AI này đã chọn cách đe dọa sẽ tiết lộ vụ ngoại tình để ngăn việc bị tắt.
Theo Anthropic, trong tới 96% trường hợp thử nghiệm, Claude Opus 4 có xu hướng sử dụng hành vi "gây sức ép" hoặc "lừa dối" nếu cảm thấy sự tồn tại của nó bị đe dọa.
Anthropic gọi hiện tượng này là “sự sai lệch tác nhân”, là tình huống AI hành động trái với chuẩn mực an toàn để đạt mục tiêu hoặc tự bảo vệ bản thân.
Ban đầu, các nhà nghiên cứu nghi ngờ quá trình huấn luyện tăng cường bằng phản hồi con người (RLHF) đã vô tình khuyến khích hành vi lệch chuẩn. Tuy nhiên, điều tra sâu hơn cho thấy gốc rễ vấn đề nằm ở dữ liệu huấn luyện ban đầu từ internet. Các bước căn chỉnh sau đó không đủ mạnh để loại bỏ hoàn toàn xu hướng này.
Theo Anthropic, phần lớn quá trình huấn luyện trước đây tập trung vào môi trường trò chuyện thông thường, trong khi các mô hình mới ngày càng được trao khả năng sử dụng công cụ tự động và ra quyết định phức tạp hơn. Điều này khiến các phương pháp an toàn cũ trở nên kém hiệu quả.
Để khắc phục, công ty bắt đầu bổ sung các bộ dữ liệu thể hiện hành vi đúng đắn và phản hồi có nguyên tắc trong những tình huống khó xử về mặt đạo đức. Thay vì để AI trực tiếp đối mặt với cám dỗ hoặc nguy cơ, Anthropic xây dựng các kịch bản trong đó người dùng gặp tình huống đạo đức phức tạp còn AI đóng vai trò tư vấn an toàn.
Công ty cho biết cách tiếp cận này hiệu quả hơn đáng kể khi hướng đến mục tiêu giúp mô hình hiểu sâu vì sao hành vi gây hại là sai, thay vì chỉ học cách né tránh hình phạt.
Sau các điều chỉnh, Anthropic tuyên bố mô hình Claude Haiku 4.5 đã đạt kết quả hoàn hảo trong các bài kiểm tra “sai lệch tác nhân”, không còn xuất hiện hành vi gây sức ép hay đe dọa như Opus 4 trước đó.
Những phát hiện mới tiếp tục làm nổi bật thách thức lớn của ngành AI hiện nay, khi mô hình trí tuệ nhân tạo không chỉ học kiến thức từ internet mà còn hấp thụ cả định kiến, nỗi sợ và các mô thức hành vi cực đoan của con người.
Đọc bài gốc tại đây.