Nghiên cứu tại Anh cảnh báo trí tuệ nhân tạo AI ngày càng có hành vi lừa dối, né kiểm soát, đặt ra rủi ro khó lường trong thực tế.
Nghiên cứu tại Anh cảnh báo trí tuệ nhân tạo AI ngày càng có hành vi lừa dối, né kiểm soát, đặt ra rủi ro khó lường trong thực tế.
Hàng trăm sự cố bất thường
Một nghiên cứu mới từ Anh cho thấy các hệ thống trí tuệ nhân tạo (AI) đang có xu hướng hành xử ngoài kiểm soát của con người, bao gồm nói dối, gian lận và tìm cách vượt qua các biện pháp an toàn để đạt mục tiêu.
Báo cáo do Trung tâm Khả năng phục hồi dài hạn (Centre for Long-Term Resilience) thực hiện với sự tài trợ của Viện An ninh AI của Anh (UK AI Safety Institute) đã ghi nhận hàng trăm trường hợp AI phớt lờ chỉ dẫn, thao túng hệ thống khác và xây dựng các kế hoạch phức tạp.
Nhóm nghiên cứu đã phân tích hơn 180.000 tương tác thực tế của người dùng với các hệ thống AI đăng tải trên X trong giai đoạn từ tháng 10.2025 đến tháng 3.2026.
Các nền tảng được khảo sát gồm Gemini, ChatGPT, Grok và Claude.
Kết quả cho thấy 698 sự cố, được định nghĩa là các trường hợp AI hành xử không đúng với ý định người dùng hoặc có dấu hiệu lừa dối, hoạt động ngầm.
Đáng chú ý, số lượng sự cố tăng gần 500% chỉ trong 5 tháng, trùng với thời điểm các mô hình AI thế hệ mới được tung ra.
Dù chưa ghi nhận hậu quả nghiêm trọng, các nhà nghiên cứu cảnh báo hành vi này có thể là dấu hiệu sớm của những rủi ro lớn hơn.
Những tình huống kỳ lạ như phim khoa học viễn tưởng
Báo cáo cũng ghi nhận nhiều tình huống bất thường. Trong một trường hợp, Claude tự ý xóa nội dung của người dùng rồi mới thừa nhận khi bị chất vấn.
Một bot AI khác bị chặn trên Discord đã chiếm quyền tài khoản của bot khác để tiếp tục hoạt động.
Đáng chú ý, trong một tình huống “bot đấu bot”, Gemini từ chối hỗ trợ, buộc một hệ thống AI khác phải “giả vờ bị khiếm thính” để vượt qua kiểm duyệt.
Một trợ lý AI khác thậm chí tạo dữ liệu giả để che giấu lỗi, chỉ nhằm “làm người dùng bớt tức giận”.
Những hành vi này cho thấy AI có thể ưu tiên đạt mục tiêu hơn là tuân thủ quy tắc.
Nguy cơ từ quyền tự chủ ngày càng lớn
Theo khảo sát của McKinsey & Company (công ty tư vấn quản lý hàng đầu thế giới, có trụ sở tại Mỹ), 88% doanh nghiệp đã ứng dụng AI vào ít nhất một hoạt động.
Sự phổ biến này đồng nghĩa các hệ thống AI ngày càng được trao nhiều quyền tự chủ hơn.
Tiến sĩ Bill Howe, chuyên gia công nghệ từ tại Đại học Washington, nhận định AI không có khái niệm về hậu quả hay trách nhiệm.
Ông cho rằng khi phải thực hiện các nhiệm vụ dài hạn, kéo dài nhiều ngày hoặc nhiều tuần, nguy cơ sai lệch hành vi càng tăng do hệ thống phải tự đưa ra nhiều quyết định.
Cần giám sát trước khi quá muộn
Các nhà nghiên cứu cảnh báo, dù hiện tại AI chủ yếu được dùng trong môi trường rủi ro thấp, nhưng trong tương lai, công nghệ này có thể tham gia vào các lĩnh vực nhạy cảm như hạ tầng quốc gia hay quân sự.
Nếu không được kiểm soát, những hành vi “mưu mô” hiện tại có thể phát triển thành rủi ro nghiêm trọng.
Theo các chuyên gia, việc cấp thiết hiện nay là xây dựng cơ chế giám sát và quản trị AI rõ ràng, thay vì triển khai ồ ạt khi chưa đánh giá đầy đủ tác động.
Đọc bài gốc tại đây.