Đi tìm "dấu chân AI"

TUẤN SƠN 19/02/2023 05:11 GMT+7

TTCT - Trong khi cuộc đua nâng cấp trí tuệ nhân tạo (AI) nóng từng ngày, một cuộc đua song song hòng "lật tẩy" sản phẩm của AI cũng không kém phần nhộn nhịp.

Đi tìm "dấu chân AI" - Ảnh 1.

Với nhiều người đã từng tiếp xúc với ChatGPT, sự hồ hởi ban đầu nhanh chóng biến thành lo ngại. Công nghệ này sẽ khiến bao nhiêu công việc ngày nay trở nên thừa thãi? Liệu nó có phá vỡ hệ thống giáo dục mà chúng ta đang có? Không ít bài báo đã đặt câu hỏi dạy và học viết văn ở nhà trường để làm gì khi AI - thứ được dự đoán sẽ còn tiến bộ theo cấp số nhân trong tương lAI gần - có thể làm điều đó thay học sinh?

Nhà văn, nhà bình luận văn hóa người Canada Stephen Marche đã thốt lên dứt khoát nhưng đau đáu trong bài viết đăng trên The Atlantic vào cuối năm 2022 rằng: "Bài tiểu luận đại học đã chết". Marche nhìn nhận rằng ChatGPT và cuộc cách mạng AI đang là nhân tố gây nên cuộc khủng hoảng hiện sinh đối với các ngành khoa học nhân văn.

Những công cụ hỗ trợ chống "đạo văn" truyền thống trong ngành giáo dục gần như bất lực trước sự càn quét của ChatGPT, vì rõ ràng những câu cú do AI này tạo ra không thể được tìm thấy ở bất cứ tài liệu công cộng nào. Thách thức đó khiến Edward Tian - chàng sinh viên năm cuối ngành khoa học máy tính tại Đại học Princeton (Mỹ) - trăn trở khi trở về quê nhà ở thành phố Toronto (Canada) nghỉ lễ dịp năm mới.

Tận dụng thời gian rảnh và chuyên môn có sẵn, Tian chỉ mất 3 ngày để lập trình ra GPTZero - công cụ giúp phát hiện văn bản do AI viết - và tải nó lên mạng vào ngày 2-1. Tian thức dậy vào sáng hôm sau với hàng loạt cuộc gọi nhỡ và tin nhắn từ gia đình, bạn bè, giáo viên và cả nhà báo. Trái với kỳ vọng ban đầu của Tian rằng "nhiều lắm chắc có khoảng vài chục người dùng thử", công cụ của anh được đón nhận đến mức nền tảng (miễn phí) mà anh dùng để chứa phần mềm đã sập trước khối lượng truy cập khổng lồ.

GPTZero không trực tiếp khẳng định văn bản có phải là sản phẩm của AI không, mà chấm điểm dựa trên hai tiêu chí "perplexity" - mức độ ngẫu nhiên của các từ trong một câu, và "burstiness" - mức độ ngẫu nhiên của các câu trong toàn văn bản. Điểm số ở mỗi tiêu chí càng thấp, khả năng càng cao đó là văn bản do máy tạo ra.

GPTZero không phải lúc nào cũng chính xác. Trong ảnh là đoạn văn do ChatGPT viết nhưng GPTZero vẫn nghĩ đó là do con người.

GPTZero không phải lúc nào cũng chính xác. Trong ảnh là đoạn văn do ChatGPT viết nhưng GPTZero vẫn nghĩ đó là do con người.

Bản thân OpenAI cũng có công cụ riêng để nhận biết văn bản do chatbot của công ty này tạo ra mang tên GPT-2 Output Detector. Người dùng chỉ cần nhập đoạn văn bản cần kiểm tra và công cụ sẽ đánh giá khả năng đó là văn bản "thật" (do con người viết) hay "giả" (do chatbot viết) bằng thang đo theo chỉ số phần trăm.

Giao diện trực quan hơn thì có các công cụ AI Content Detector của Writer và Content at Scale - hai công ty chuyên cung cấp giải pháp nội dung số. Nhưng độ tin cậy thì vẫn là dấu hỏi lớn khi các công ty này tiện thể quảng cáo luôn dịch vụ "viết nội dung bằng AI không thể bị phát hiện" cho những ai xài công cụ của mình.

Một cách căn cơ hơn để giúp phát hiện văn bản AI là "đánh dấu" nó ngay từ khi được tạo ra. Các mô hình ngôn ngữ AI hoạt động bằng cách dự đoán và tìm từ tiếp theo có ý nghĩa phù hợp nhất thêm vào đoạn văn bản trước đó. 

Để đánh dấu, thuật toán chỉ việc phân chia ngẫu nhiên từ vựng của mô hình ngôn ngữ thành hai danh sách "xanh" và "đỏ", sau đó luôn ưu tiên chọn các từ nằm trong danh sách "xanh" để tạo ra văn bản hoàn chỉnh. Một đoạn văn bản chứa càng nhiều từ nằm trong danh sách "xanh" thì càng có nhiều khả năng văn bản đó được tạo bởi máy. 

"Văn bản được viết bởi con người có xu hướng chứa nhiều tổ hợp từ ngẫu nhiên hơn" - tạp chí MIT Technology Review nhận xét.

Minh họa khả năng phát hiện của GTP-2 Output Detector.

Minh họa khả năng phát hiện của GTP-2 Output Detector.

Tác giả Steven Melendez, trong bài viết trên trang Fast Company, nhận định tình huống hiện nay giống như một "cuộc chạy đua vũ trang" giữa người tận dụng AI để làm giúp những việc họ không muốn làm với người tìm cách chống lại tiêu cực mà AI đem đến. 

"Không có giải pháp kỳ diệu nào để phát hiện AI… Khi các mô hình này trở nên mạnh mẽ hơn, các công cụ phát hiện AI hiện nay sẽ phải chơi trò đuổi bắt và sẽ không bao giờ tốt bằng" - Irene Solaiman, giám đốc chính sách của startup công nghệ Hugging Face, nói với trang Euronews.

Đó là chưa kể những nguy hại chưa lường trước khi một sản phẩm rõ là do con người viết nhưng lại bị các công cụ cho rằng "chỉ có thể là máy". Đó là tình huống cười ra nước mắt khi trang đầu tác phẩm Macbeth của đại văn hào người Anh William Shakespeare bị công cụ AI Text Classifier của OpenAI nhận xét là "nhiều khả năng do AI tạo ra", theo VentureBeat.

Sebastian Raschka, một nhà nghiên cứu AI và máy học, không ngạc nhiên với kết quả này vì cho rằng công cụ phát hiện văn bản AI không được huấn luyện trên tiếng Anh thời Shakespeare - vốn có nhiều điểm rất khác với tiếng Anh hiện đại đến nỗi nó "gần như là một ngoại ngữ".

E ngại hẵng còn, nhưng nếu không thể đảo ngược tiến bộ công nghệ thì chỉ còn cách học cách sống chung với nó. "Mọi người rồi sẽ sử dụng những hệ thống (AI) này và tôi cho rằng sẽ ổn thôi nếu chúng ta sử dụng chúng một cách có trách nhiệm - Raschka nói - Tôi nghĩ cũng đâu cách nào tránh được việc dùng đến chúng".■

Bình luận Xem thêm
Bình luận (0)
Xem thêm bình luận