Các công cụ phát hiện văn bản AI đã trở nên phổ biến, nhưng chúng lại nổi tiếng với khả năng nhận diện sai nội dung do con người viết. Chúng thường xuyên gắn cờ nhầm các bài viết chỉ vì ngữ pháp quá hoàn hảo, cách dùng từ ngữ cụ thể, hoặc thậm chí là phong cách viết. Điều này đang tạo ra những vấn đề lớn cho sinh viên, người làm nội dung và bất kỳ ai dựa vào việc viết lách.
Vậy, nếu bài viết của bạn liên tục bị các công cụ kiểm tra AI gắn cờ, dưới đây là những lý do chính và cách bạn có thể khắc phục tình trạng này để đảm bảo nội dung của mình được công nhận là do con người tạo ra.
1. Ngữ Pháp Quá Hoàn Hảo Là Một Lý Do
Một trong những cách mà công cụ phát hiện AI nhận diện văn bản được tạo ra bởi trí tuệ nhân tạo là dựa vào mức độ “hoàn hảo” của ngữ pháp, cũng như việc bài viết sử dụng các cấu trúc câu tiêu chuẩn hoặc phổ biến. Về lý thuyết, AI không mắc lỗi ngữ pháp, trong khi ngay cả những người viết giỏi nhất cũng có thể mắc lỗi nhỏ khi viết. Tương tự, nếu bài viết của bạn ít có sự thử nghiệm về phong cách và trở nên quá chuẩn mực về ngữ pháp, thiếu đi dấu ấn cá nhân, điều này có thể kích hoạt các công cụ phát hiện AI.
Để minh họa, dưới đây là một đoạn văn được viết bởi ChatGPT dựa trên bài viết gốc này và được dán vào GPTZero. Kết quả cho thấy nó bị gắn cờ với tỷ lệ cực cao là 100% được viết bởi AI.
Kết quả GPTZero: Văn bản được xác định 100% do AI tạo ra
Nếu tôi thêm một vài lỗi ngữ pháp nhỏ bằng cách xóa một số dấu phẩy và thêm một lỗi chính tả, cùng với một vài thay đổi nhỏ về phong cách, điểm số của GPTZero giảm đáng kể xuống 81%.
GPTZero hiển thị đoạn văn bản được tạo 81% bởi AI sau khi chỉnh sửa
2. Bạn Sử Dụng Từ Ngữ Phổ Biến Mà AI Thường Dùng
Khi đọc một bài viết, nhiều người trong chúng ta đã phát triển một cảm giác trực giác về việc liệu nó có được viết bởi AI hay không, chẳng hạn như những đoạn văn “rườm rà” và các từ ngữ mà AI thường xuyên sử dụng như “delve” (tìm hiểu sâu), “highlight” (nổi bật), “underscore” (nhấn mạnh), “pose” (đặt ra), “the world of” (thế giới của), “strive” (cố gắng), và vô số từ/cụm từ khác. Điều này trở nên rõ ràng khi nhìn vào sự gia tăng đột biến của từ “delve” trong các bài nghiên cứu học thuật vào năm 2023, trùng khớp với thời điểm ChatGPT ra mắt.
Sử dụng cùng đoạn văn như ví dụ trên, nếu tôi thực hiện một vài thay đổi nhỏ đối với các phần bị gắn cờ đỏ nhiều nhất của AI, điểm số GPTZero giảm xuống còn 49%—một điểm số được coi là “do con người tạo ra”, mặc dù vẫn không thể thoát khỏi sự giám sát học thuật nghiêm ngặt. Rõ ràng, các công cụ kiểm tra AI có thể dễ dàng bị đánh lừa chỉ với một vài chỉnh sửa nhỏ, đây là một trong nhiều ví dụ làm nổi bật sự kém hiệu quả của chúng.
GPTZero hiển thị đoạn văn bản được tạo 49% bởi con người
Tôi đã dành khá nhiều thời gian làm gia sư viết lách, và tôi nhận thấy rằng các học sinh nói tiếng Anh là ngôn ngữ thứ hai của tôi thường phàn nàn nhiều hơn về việc nhận được các báo cáo sai (false positives) từ các công cụ kiểm tra AI. Khi tạo các mô hình ngôn ngữ lớn, các công ty AI thường thuê ngoài việc chú thích dữ liệu cho các quốc gia nơi tiếng Anh là ngôn ngữ thứ hai phổ biến. Do đó, một số từ mà chúng ta liên kết với văn bản AI, chẳng hạn như “delve”, có thể là kết quả của việc chú thích dữ liệu được thực hiện bởi những người nói tiếng Anh là ngôn ngữ thứ hai, những người sử dụng các từ này trong vốn từ vựng của họ.
Điều này còn phức tạp hơn bởi nhiều người thành thạo tiếng Anh như ngôn ngữ thứ hai thường biết và hiểu các quy tắc ngữ pháp tốt hơn những người bản xứ, những người thường tiếp cận một cách trực quan hơn. Do đó, những người nói tiếng Anh là ngôn ngữ thứ hai có thể phải đối mặt với nguy cơ kép (double jeopardy) khi bị các công cụ kiểm tra AI gắn cờ sai vì ngữ pháp chính xác và lựa chọn từ vựng của họ.
3. Sử Dụng Công Cụ Hỗ Trợ Viết AI Cũng Có Thể Là Nguyên Nhân
Cả hai vấn đề nêu trên đều có thể xảy ra ngay cả khi bạn không sử dụng công cụ AI tạo sinh. Nếu bạn nghiêm túc cố gắng viết nội dung gốc nhưng lại sử dụng các công cụ hỗ trợ viết như Grammarly, bài viết của bạn có nhiều khả năng bị gắn cờ là do AI viết. Đây chắc chắn là một “vùng xám” trong giới học thuật, vì những công cụ này về cơ bản là trợ lý AI tạo sinh, và sinh viên thường sử dụng chúng để thay thế việc học thay vì dùng như một công cụ bổ trợ hữu ích.
Theo kinh nghiệm gia sư của tôi, tôi thấy rằng những người quá phụ thuộc vào Grammarly để sửa bài viết của họ thường là những người lo sợ nhất khi nộp bài cho các công cụ kiểm tra AI. Khi một tỷ lệ đáng kể văn bản của bạn được viết lại theo gợi ý của trợ lý AI, một phần lớn bài viết của bạn thực tế là do AI tạo ra. Do đó, khi sử dụng các công cụ như Grammarly, hãy cẩn thận nếu bạn quá phụ thuộc vào chúng, và hãy coi các gợi ý của Grammarly là cơ hội học hỏi thay vì chấp nhận một cách mù quáng.
4. Sao Chép Trực Tiếp Từ ChatGPT Là “True Positive”
Cuối cùng và rõ ràng nhất, nếu bạn thực sự sử dụng ChatGPT và không chỉnh sửa gì đáng kể đầu ra của nó, các công cụ kiểm tra AI gần như chắc chắn sẽ gắn cờ bạn; đây không phải là một báo cáo sai (false positive). Tuy nhiên, ngay cả khi bạn nghiêm túc cố gắng viết nội dung hoàn toàn gốc, không có sự hỗ trợ, thì ngữ pháp hoàn hảo và một số lựa chọn từ vựng, cách diễn đạt nhất định vẫn có thể khiến bạn bị gắn cờ sai.
Kết luận:
Các công cụ phát hiện AI hiện tại còn nhiều hạn chế và có thể dễ dàng đánh lừa, thậm chí là nhận định sai nội dung do con người tạo ra. Để tránh bị gắn cờ oan, hãy chú ý đến phong cách viết cá nhân, cân bằng giữa ngữ pháp chuẩn và sự tự nhiên, cũng như thận trọng khi quá phụ thuộc vào các công cụ hỗ trợ viết AI. Trải nghiệm và chuyên môn thực tế của bạn sẽ là yếu tố quan trọng nhất để tạo nên nội dung giá trị và đáng tin cậy.
Hãy chia sẻ kinh nghiệm của bạn về việc bị công cụ phát hiện AI gắn cờ nhầm trong phần bình luận bên dưới!