Lý do Reddit thay đổi lập trường, chặn công cụ lưu trữ web nổi tiếng của Internet Archive

13/08 08:56
 

Quyết định của Reddit làm dấy lên tranh luận về ranh giới giữa bảo vệ dữ liệu cá nhân và duy trì một Internet mở, tự do truy cập.

Quyết định của Reddit làm dấy lên tranh luận về ranh giới giữa bảo vệ dữ liệu cá nhân và duy trì một Internet mở, tự do truy cập.

Cuộc đối đầu giữa các nền tảng nội dung và công ty AI tiếp tục nóng lên khi Reddit mới đây thông báo sẽ chặn Wayback Machine, là công cụ lưu trữ web nổi tiếng của Internet Archive, quét và lưu trữ hầu hết bài đăng, bình luận và thông tin công khai trên nền tảng.

Lý do, được Reddit đưa ra là họ có bằng chứng cho thấy một số công ty AI đang lợi dụng Wayback Machine để thu thập dữ liệu, né tránh phí cấp phép và khai thác thông tin người dùng.

Quyết định này đồng nghĩa với việc Wayback Machine sẽ không thể lưu trữ bài đăng, bình luận hoặc thông tin hồ sơ từ Reddit, ngoại trừ nội dung xuất hiện trên trang chủ Reddit.com.

Động thái trên diễn ra trong bối cảnh nền tảng mạng xã hội này đang siết chặt quyền kiểm soát dữ liệu, sẵn sàng hợp tác với các công ty AI nhưng chỉ khi họ chấp nhận trả phí.

Trước đó, Reddit từng khẳng định sẽ không hạn chế “các tác nhân có thiện chí” như Internet Archive. Tuy nhiên, lập trường này đã thay đổi khi phát hiện một số bên hỗ trợ AI khai thác dữ liệu trái phép thông qua Wayback Machine.

Internet Archive và Wayback Machine

Thành lập năm 1996 tại Mỹ, Internet Archive là tổ chức phi lợi nhuận do kỹ sư máy tính Brewster Kahle sáng lập, với mục tiêu xây dựng kho lưu trữ toàn diện và công khai về Internet. Nổi tiếng nhất là Wayback Machine, công cụ cho phép người dùng truy cập phiên bản lưu trữ của các trang web trong quá khứ.

Internet Archive cung cấp quyền truy cập miễn phí vào nhiều loại nội dung số, từ website, phần mềm, âm nhạc, phim ảnh đến ấn phẩm in...

Phần lớn dữ liệu được thu thập tự động qua hệ thống crawler, nhằm bảo tồn thông tin công khai và chống lại sự “bốc hơi” của dữ liệu số.

Theo Brewster Kahle, Internet Archive không chỉ là thư viện số, mà còn là “biện pháp bảo vệ văn hóa” trước biến động công nghệ. Ông Brewster Kahle ví dự án như nỗ lực tái hiện “Thư viện Alexandria” của thời hiện đại, bảo đảm tri thức nhân loại được lưu giữ cho thế hệ mai sau.

Việc Reddit chặn Wayback Machine cho thấy những căng thẳng mới trong kỷ nguyên AI, khi ranh giới giữa bảo vệ quyền sở hữu dữ liệu và duy trì một internet mở ngày càng khó phân định.

Đọc bài gốc tại đây.