Bạn đã bao giờ duyệt web và tự hỏi “đây là cái gì?” hay “mua nó ở đâu?” chưa? Nếu có, bạn không đơn độc. May mắn thay, các công cụ tìm kiếm thị giác tích hợp trình duyệt như Google Lens trên Chrome và Microsoft Copilot Vision trên Edge đã ra đời để giải quyết vấn đề này. Nhưng giữa hai trợ lý AI mạnh mẽ này, công cụ nào thực sự vượt trội và phù hợp với nhu cầu của người dùng Việt Nam? Bài viết này sẽ đi sâu phân tích, so sánh từng khía cạnh để giúp bạn đưa ra lựa chọn sáng suốt nhất.
Về cơ bản, Google Lens được tích hợp sâu vào Chrome và cũng có sẵn dưới dạng ứng dụng di động. Trong khi đó, cho đến ngày 12 tháng 6 năm 2025, Copilot Vision vẫn bị giới hạn trong Microsoft Edge, chỉ có thể truy cập qua một cờ kích hoạt (edge://flags/#edge-copilot-vision). Tuy nhiên, bản cập nhật Copilot Vision mới nhất của Microsoft đã mở rộng khả năng sử dụng công cụ AI này trên cả Windows 10 và Windows 11, mặc dù hiện tại chỉ giới hạn cho người dùng tại Hoa Kỳ.
Khả năng Nhận diện và Tìm kiếm Nhanh chóng: Ai Tối Ưu Hơn?
Để đánh giá tốc độ và độ chính xác trong việc nhận diện vật thể cũng như đưa ra các gợi ý hữu ích, chúng tôi đã tiến hành thử nghiệm Google Lens và Copilot Vision trên cùng các trang web. Cụ thể, chúng tôi sử dụng một bài blog về các loại vải áo sơ mi và một bài đăng về cây cối trong một nhóm Facebook, tập trung vào phần mô tả vải Oxford trong bài blog.
Cả Google Lens và Copilot Vision đều nhận diện vật thể gần như ngay lập tức. Cả hai đều xác định đúng loại cây là cây Chùm Ngây (Moringa). Tuy nhiên, có sự khác biệt rõ rệt trong cách chúng mô tả chiếc áo sơ mi Oxford. Google Lens mô tả nó là “Vải Oxford Nylon Đen”, trong khi Copilot Vision gọi đó là “Áo sơ mi và Vải Oxford”.
Sự khác biệt thực sự bắt đầu thể hiện ở các bước tiếp theo của mỗi công cụ.
Google Lens: Chuyên gia tìm kiếm sản phẩm và thông tin mua sắm
Google Lens tỏ ra vượt trội hơn hẳn nếu mục tiêu của bạn là tìm kiếm hoặc mua sắm thứ bạn đang thấy. Nó tự động gợi ý các mặt hàng tương tự, cung cấp các liên kết sản phẩm có thể nhấp trực tiếp và dẫn bạn đến các cửa hàng hoặc bài blog để tìm hiểu thêm hoặc thực hiện giao dịch mua bán. Giao diện hiển thị tất cả kết quả trong một thanh sidebar (bảng điều khiển bên) rất tiện lợi, giúp bạn dễ dàng duyệt qua mà không cần rời khỏi trang hiện tại.
Copilot Vision: Mạnh về hiểu ngữ cảnh và trả lời câu hỏi chuyên sâu
Ngược lại, Copilot Vision không đưa ra gợi ý sản phẩm hay liên kết trực tiếp đến các nguồn bên ngoài. Chức năng chính của nó là nhận diện những gì có trên trang và trả lời bất kỳ câu hỏi nào bạn có về nội dung đó. Ví dụ, khi chúng tôi hỏi về lợi ích sức khỏe của cây Moringa oleifera được nhận diện từ bài đăng Facebook, Copilot Vision đã cung cấp thông tin chi tiết. Thậm chí khi hỏi “Tôi có thể trồng nó trong phòng khách không?”, câu trả lời nhận được là “Có lẽ là không”. Điều này cho thấy Copilot Vision rất hữu ích nếu bạn chỉ muốn hiểu rõ hơn về một vật thể hoặc nội dung mà mình đang xem, nhưng không thực sự hiệu quả nếu bạn muốn khám phá hoặc mua nó.
Xử lý Văn bản: Sao chép, Dịch thuật và Hỏi đáp
Tiếp theo, chúng tôi thử nghiệm cả hai công cụ với các tác vụ liên quan đến văn bản, bao gồm sao chép, dịch thuật và đặt câu hỏi chuyên sâu. Chúng tôi sử dụng một tài liệu PDF học tiếng Đức-Anh song ngữ và một hình ảnh quét mặt sau của thẻ căn cước cá nhân để kiểm tra khả năng xử lý văn bản ở nhiều định dạng khác nhau của mỗi công cụ.
Google Lens: Linh hoạt trong trích xuất và dịch văn bản
Google Lens vượt trội trong việc trích xuất và dịch văn bản từ hình ảnh và tài liệu. Chúng tôi dễ dàng sao chép văn bản từ hình ảnh và dịch tức thì trong thanh sidebar. Đây là tính năng cực kỳ hữu ích khi bạn làm việc với các tài liệu nước ngoài hoặc muốn nhanh chóng lấy một số điện thoại, tên hoặc số ID mà không cần phải gõ thủ công. Bạn cũng có thể sử dụng sidebar để khám phá các kết quả tìm kiếm, tra cứu định nghĩa nhanh hoặc nhập thêm từ khóa để tìm thông tin liên quan. Mọi thao tác đều diễn ra trong bảng điều khiển bên, giúp bạn dễ dàng kiểm soát phần văn bản đang được làm nổi bật.
Google Lens trích xuất và dịch văn bản từ thẻ ID cá nhân
Copilot Vision: Tương tác đàm thoại và phân tích ngữ cảnh
Ngược lại, Copilot Vision (ở dạng ứng dụng trước bản cập nhật) không cho phép sao chép văn bản và chỉ cung cấp bản dịch bằng giọng nói, điều này có nghĩa là bạn không thể sao chép hoặc ghi chú lại bản dịch như với Google Lens. Tuy nhiên, nó lại xử lý các tương tác thời gian thực với văn bản rất tốt một cách đáng ngạc nhiên. Ví dụ, khi chúng tôi mở hình ảnh thẻ căn cước (đã cố tình đặt ngược), chúng tôi yêu cầu Copilot Vision đọc nội dung trên trang. Nó đã gợi ý xoay và phóng to hình ảnh. Sau khi thực hiện, Copilot Vision đã đọc chính xác văn bản và thậm chí còn cung cấp bản dịch tiếng Đức khi được yêu cầu.
Về khả năng đặt câu hỏi tiếp theo về văn bản trên trang, Copilot Vision có thể cung cấp bất kỳ làm rõ nào bạn cần về nội dung đang xem. Bạn sẽ phải đặt câu hỏi và nhận câu trả lời bằng giọng nói (thông qua các phản hồi hội thoại trên màn hình).
Cập nhật “Highlights” của Copilot Vision: Một bước tiến mới?
Tuy nhiên, bản cập nhật ngày 12 tháng 6 của Copilot Vision nhiều khả năng sẽ thay đổi tất cả những điều này. Theo Microsoft, Copilot Vision hiện bao gồm tính năng “Highlights” – một tính năng nghe có vẻ rất giống với trang kết quả của Google Lens, được cố định ở bên phải màn hình của bạn. Highlights dường như còn đi xa hơn, có thể hiển thị nội dung hữu ích từ các ứng dụng, trình duyệt và tài liệu của bạn; về cơ bản là bất kỳ thứ gì trên PC mà bạn chia sẻ với Copilot Vision. Microsoft tuyên bố rằng bạn thậm chí không cần phải ra lệnh cho Copilot Vision trợ giúp – nó sẽ tự động gợi ý các hành động và tệp liên quan dựa trên hoạt động của bạn. Đáng tiếc, do công cụ này hiện chỉ khả dụng ở Hoa Kỳ tại thời điểm viết bài, chúng tôi chưa thể thử nghiệm nó.
Phân tích Nội dung Toàn trang và Tài liệu Lớn: Ai Có Chiều Sâu Hơn?
Copilot Vision thực sự nổi bật khi chúng tôi cố gắng phân tích toàn bộ trang web. Chúng tôi đã thử nghiệm cả hai công cụ trên một cuốn sách PDF đầy đủ và một trang video YouTube (cụ thể là video đánh giá WWDC của MKBHD) để xem chúng có thể tóm tắt và cung cấp thông tin chi tiết về nội dung rộng lớn hơn tốt đến mức nào.
Google Lens: Giới hạn ở các yếu tố riêng lẻ
Google Lens chủ yếu bị giới hạn ở các yếu tố riêng lẻ mà bạn nhấp vào (văn bản, vật thể và hình ảnh). Một khi bạn làm nổi bật một thứ gì đó, nó có thể hiển thị thêm thông tin hoặc các kết quả tương tự, nhưng nó không xử lý toàn bộ trang hoặc PDF. Vì vậy, chúng tôi chỉ có thể làm nổi bật tiêu đề sách hoặc trang bìa để nhận được các kết quả tương tự.
Copilot Vision: Sức mạnh của phân tích tổng thể
Trong khi đó, Copilot Vision được thiết kế để diễn giải mọi thứ trên trang cùng một lúc. Nó đã trả lời câu hỏi của chúng tôi về luận điểm chính của tác giả, điều hướng đến phần quan trọng và thậm chí làm nổi bật câu văn liên quan (mặc dù nó bắt đầu gặp trục trặc và từ chối các yêu cầu tiếp theo sau trường hợp này, có lẽ do kích thước tệp lớn).
Copilot Vision làm nổi bật một câu trong sách PDF khi phân tích toàn trang
Hiệu suất của Copilot Vision đôi khi có thể bị chậm lại với các tệp lớn, nhưng rõ ràng nó được xây dựng để tương tác với toàn bộ trang và nội dung có dung lượng lớn hơn.
Khi chúng tôi thử nghiệm trên trang video YouTube, Copilot Vision đã tóm tắt những gì MKBHD đã nói và cách video đang được đón nhận. Nó thậm chí còn cung cấp các số liệu thống kê như lượt xem và lượt thích. Ngược lại, với Google Lens, chúng tôi chỉ có thể làm nổi bật hình ảnh của MKBHD hoặc tiêu đề video để thực hiện tìm kiếm.
Google Lens và Copilot Vision: Lựa chọn nào phù hợp với bạn?
Cả Google Lens và Microsoft Copilot Vision đều là những công cụ mạnh mẽ, nhưng chúng phục vụ các mục đích khác nhau một cách cơ bản. Thay vì một công cụ vượt trội hoàn toàn, lựa chọn đúng đắn phụ thuộc vào cách bạn sử dụng công cụ tìm kiếm thị giác của trình duyệt.
Chọn Google Lens nếu bạn cần:
- Nhận diện tức thì: Sản phẩm, quần áo, cây cối và tìm nơi mua chúng nhanh chóng.
- Xử lý văn bản hiệu quả: Sao chép và dịch văn bản trực tiếp từ hình ảnh, trang web hoặc tài liệu.
- Giao diện trực quan: Sử dụng bố cục sidebar gọn gàng để duyệt liên kết và định nghĩa mà không cần rời trang.
- Kết quả tìm kiếm nhanh: Nhận kết quả tìm kiếm trực quan và tổng quan AI của Google mà không cần nhiều tương tác.
Google Lens đơn giản, dễ sử dụng và lý tưởng để nhận được câu trả lời nhanh chóng về những gì bạn thấy khi duyệt web.
Chọn Copilot Vision nếu bạn muốn:
- Tương tác sâu: Với các tài liệu phức tạp, video hoặc toàn bộ trang web.
- Hỏi đáp chi tiết: Đặt các câu hỏi tiếp theo chuyên sâu về những gì bạn đang đọc hoặc xem.
- Phân tích và thảo luận: Tóm tắt, diễn giải hoặc thảo luận văn bản với một chatbot AI thân thiện.
- Giao diện tích hợp (Highlights): Nhận được nhiều thông tin hơn dựa trên nội dung trên màn hình của bạn (nếu bạn có bản cập nhật gần đây).
Copilot Vision không chỉ nhận diện những gì bạn đang xem mà còn muốn trò chuyện, tương tác sâu với bạn về nó.
Về khả năng tiếp cận và chi phí sử dụng
Về khả năng tiếp cận và chi phí, Google Lens miễn phí và được tích hợp hoàn toàn vào Chrome mà không có giới hạn sử dụng. Copilot Vision, mặt khác, yêu cầu Microsoft Edge và tính năng cần được bật. Ngoài ra, bạn sẽ chỉ có thể sử dụng nó vài lần mỗi ngày trừ khi bạn nâng cấp lên Copilot Pro.
Cá nhân tôi, tôi thấy mình sử dụng Google Lens thường xuyên hơn và đây là công cụ tôi sẽ chọn làm lựa chọn tổng thể tốt nhất. Hầu hết thời gian, tôi chỉ muốn nhận diện nhanh một thứ gì đó và tiếp tục, dù đó là một sản phẩm, một từ hay một hình ảnh. Google Lens làm điều đó ngay lập tức, không có bất kỳ rào cản nào. Thực tế là nó miễn phí, dễ dàng truy cập trong Chrome (và dưới dạng ứng dụng điện thoại thông minh), không yêu cầu thiết lập bổ sung nào khiến nó trở thành công cụ thực tế nhất cho việc duyệt web hàng ngày. Mặc dù Copilot Vision có những điểm mạnh riêng, Google Lens chiến thắng nhờ sự đơn giản và hiệu quả của nó.