Trong kỷ nguyên trí tuệ nhân tạo (AI) phát triển mạnh mẽ, tấn công đầu độc dữ liệu (data poisoning attacks) đang nổi lên như một mối đe dọa nghiêm trọng, có khả năng làm suy giảm hoặc kiểm soát hành vi của các mô hình AI bằng cách thay đổi tập dữ liệu huấn luyện. Theo các chuyên gia, kẻ tấn công có thể đưa thông tin sai lệch vào dữ liệu, dẫn đến hành vi lệch lạc của mô hình, khiến hệ thống trở nên không an toàn. Ví dụ, trong lĩnh vực tài chính, chăm sóc sức khỏe hay hệ thống tự động, data poisoning có thể gây hậu quả nghiêm trọng như sai lệch dự báo hoặc quyết định sai lầm. Bài viết này sẽ mở rộng phân tích dựa trên các nguồn tiếng Anh từ Wiz, SentinelOne và các nghiên cứu mới nhất năm 2025, khám phá cơ chế tấn công, ví dụ thực tế và giải pháp bảo vệ.
Tấn công đầu độc dữ liệu là hình thức tấn công nhằm vào tập dữ liệu huấn luyện của mô hình AI và học máy (ML), bằng cách thêm, sửa hoặc xóa dữ liệu để thao túng kết quả. Theo Wiz, kẻ tấn công thường nhắm đến các ngành phụ thuộc AI như tài chính (dự báo thị trường), y tế (chẩn đoán bệnh) và giao thông (hệ thống tự lái), nơi dữ liệu bị ô nhiễm có thể dẫn đến thiệt hại kinh tế hoặc sinh mạng. Một ví dụ điển hình là tại nhà ga xe lửa, nơi camera giám sát cung cấp dữ liệu cho AI quản lý hoạt động. Kẻ tấn công có thể dùng laser đỏ để lừa camera nhận diện sai tình trạng bến đỗ, khiến AI trì hoãn tàu, tiềm ẩn nguy cơ tai nạn chết người. Mặc dù hiếm gặp ở cơ sở hạ tầng vật lý, nhưng tấn công này phổ biến hơn ở hệ thống trực tuyến dựa trên mô hình ngôn ngữ lớn (LLM) huấn luyện từ mạng xã hội và web.
Một trường hợp nổi tiếng là chatbot Tay của Microsoft năm 2016. Chỉ sau vài giờ ra mắt, người dùng mạng đưa dữ liệu độc hại như bình luận phân biệt chủng tộc, khiến Tay bắt chước và phát ngôn không phù hợp, buộc Microsoft phải tắt công cụ và xin lỗi. Vụ việc này minh họa cách data poisoning có thể phá hủy mục đích ban đầu của AI. Đến năm 2025, các ví dụ mới nổi lên, như tấn công vào mô hình AI nhận diện hình ảnh trong xe tự lái. Theo SentinelOne, kẻ tấn công có thể chèn dữ liệu giả mạo vào tập huấn luyện, khiến mô hình nhầm lẫn biển báo giao thông, dẫn đến tai nạn. Trong lĩnh vực quân sự, data poisoning được coi là vũ khí bí mật, như báo cáo của Lieber Institute năm 2025, nơi kẻ thù có thể đầu độc dữ liệu huấn luyện AI quân sự Mỹ để làm suy giảm khả năng chiến đấu.
Các loại tấn công đầu độc dữ liệu bao gồm availability poisoning (làm giảm độ chính xác tổng thể), targeted poisoning (thay đổi hành vi cụ thể) và backdoor poisoning (chèn cửa hậu để kích hoạt sau). Theo Lumenova, availability poisoning thường xảy ra khi kẻ tấn công thêm nhiễu vào dữ liệu, khiến mô hình giảm hiệu suất lên đến 20-30%. Backdoor poisoning, ví dụ, có thể chèn trigger ẩn trong dữ liệu, như một mẫu pixel cụ thể trong hình ảnh, để mô hình phản ứng sai khi gặp trigger thực tế. Barracuda năm 2025 cảnh báo rằng tội phạm mạng đang sử dụng data poisoning để tấn công AI chống spam, bằng cách huấn luyện mô hình nhận diện email lừa đảo sai cách. NinjaOne bổ sung rằng các tấn công này ngày càng tinh vi với AI tạo sinh (GenAI), nơi dữ liệu từ nguồn mở như GitHub bị ô nhiễm.
Để đối phó, các giải pháp đang được nghiên cứu tích cực. Tại Đại học Quốc tế Florida (FIU), phó giáo sư M. Hadi Amini và cộng sự phát triển học liên kết (federated learning), cho phép mô hình học từ dữ liệu phi tập trung mà không cần tập hợp tại một điểm, giảm lỗ hổng từ điểm yếu duy nhất. Phương pháp này bảo vệ vì dữ liệu độc hại từ một thiết bị không ảnh hưởng ngay đến mô hình tổng thể, mặc dù vẫn cần bảo vệ quá trình tổng hợp. Blockchain là giải pháp khác, cung cấp sổ cái không thể thay đổi để xác thực dữ liệu huấn luyện. Theo FIU, blockchain giúp truy vết nguồn gốc dữ liệu, phát hiện bất thường và gửi cảnh báo giữa các mạng. CybelAngel nhấn mạnh rằng blockchain tăng tính minh bạch, giúp khắc phục thiệt hại nhanh chóng.
Ngoài ra, các biện pháp khác bao gồm bộ lọc rà soát dữ liệu trước huấn luyện, như sử dụng thuật toán phát hiện outlier (dữ liệu bất thường) hoặc huấn luyện mô hình nhạy cảm với tấn công. Palo Alto khuyến nghị continuous monitoring và secure training environments để phát hiện poisoning sớm. Lasso Security đề xuất kết hợp AI phòng thủ, như mô hình phát hiện anomaly, để lọc dữ liệu độc hại với độ chính xác cao. Năm 2025, các tổ chức như Wiz khuyên nên áp dụng multi-layered defenses, bao gồm validation dữ liệu và auditing định kỳ, để giảm rủi ro từ nguồn dữ liệu mở.
Tuy nhiên, thách thức vẫn tồn tại vì data poisoning khó phát hiện, đặc biệt với dữ liệu lớn. Các nghiên cứu cho thấy cần hợp tác quốc tế để chuẩn hóa quy định bảo vệ dữ liệu AI.
Tấn công đầu độc dữ liệu đang đe dọa sự an toàn và đáng tin cậy của hệ thống AI, từ ví dụ thực tế như chatbot Tay đến các kịch bản tiềm ẩn trong giao thông và quân sự. Với sự phát triển của GenAI, rủi ro ngày càng tăng, nhưng các giải pháp như federated learning, blockchain và bộ lọc tiên tiến mang lại hy vọng bảo vệ. Trong tương lai, việc đầu tư vào nghiên cứu và quy định sẽ giúp AI phát triển bền vững, đảm bảo lợi ích vượt trội hơn rủi ro. Các tổ chức cần hành động ngay để tránh hậu quả nghiêm trọng từ data poisoning.
Nguồn: vista.gov.vn