Search 3.0 là gì?

Generative AI sẽ Không tạo ra sự thay đổi đáng kể trong cách thức tìm kiếm thông tin hiện nay | Chờ đợi Search 3.0 | Harvard Business Review ????

Tóm tắt các nội dung chính:

Bất chấp sự cường điệu xung quanh ChatGPT và Generative AI (AI tổng quát, tạm dịch, có thể hiểu “nôm na” là mô hình AI áp dụng vào bất kể lĩnh vực nào) vẫn có những thách thức lớn về khả năng thực tế, kỹ thuật và pháp lý cần vượt qua, trước khi các công cụ AI này có thể đạt đến quy mô và độ tin cậy của một công cụ tìm kiếm lâu đời như Google.

Search 1.0 và Search 2.0

Search 1.0 yêu cầu người dùng nhập từ khóa hoặc kết hợp từ khóa để truy vấn công cụ (cần phải nhập chính xác từ khóa). Search 2.0 xuất hiện vào cuối những năm 2000 với sự ra đời của tìm kiếm theo ngữ cảnh, cho phép người dùng gõ các cụm từ một cách tự nhiên như thể họ đang tương tác với con người (có thể nhập từ khóa sai khác nhưng kết quả trả về vẫn chính xác).

Google thống trị tìm kiếm online ngay từ khi ra mắt nhờ ba yếu tố chính: giao diện người dùng đơn giản và gọn gàng; thuật toán PageRank mang tính cách mạng & có nhiều kết quả liên quan đến nội dung tìm kiếm. Google Search hiện là công cụ hoàn hảo để tìm các trang web có thông tin bạn cần.

Nhưng dường như có một cách thức sử dụng mới đang gia tăng trong những năm gần đây, mà chính Google cũng phải thừa nhận trong một thông báo về Bard. Đó là, người dùng hiện muốn kết quả tìm kiếm không chỉ là một danh sách các trang web có liên quan, người dùng muốn công cụ tìm kiếm có “hiểu biết sâu sắc hơn nữa.

Search 3.0 và AI

Và đó chính xác là những gì Search 3.0 làm: cung cấp câu trả lời cụ thể thay vì danh sách các trang web. Trong khi Google chỉ cho chúng ta một cuốn sách trong thư viện và nói rằng có thể có câu trả lời trong cuốn sách đó, thì ChatGPT đã đọc mọi cuốn sách trong thư viện và có thể đưa ra ngay câu trả lời cho câu hỏi của chúng ta (so sánh về mặt lý thuyết).

Nhưng đây cũng là “vấn đề của ChatGPT”: Ở thời điểm hiện tại, ChatGPT không phải là một công cụ tìm kiếm, chủ yếu là vì ChatGPT không có quyền truy cập vào thông tin theo thời gian thực, như cách mà một công cụ tìm kiếm thu thập dữ liệu web đang làm.

ChatGPT đã được đào tạo trên một bộ dữ liệu khổng lồ được cập nhật đến năm 2021. Quá trình đào tạo này đã mang lại cho ChatGPT một lượng “kiến thức tĩnh” ấn tượng, cũng như “khả năng hiểu biết” và tạo ra các văn bản ngôn ngữ giống như con người. Tuy nhiên, ChatGPT không “biết” bất cứ điều gì ngoài các dữ liệu đã có đó. Chẳng hạn, theo như ChatGPT cho biết, FTX vẫn là một sàn giao dịch tiền điện tử uy tín, Nữ hoàng Elizabeth còn sống… Đây có thể là lý do tại sao Giám đốc điều hành OpenAI Sam Altman cho biết, “Thật sai lầm khi dựa vào [ChatGPT] cho bất cứ điều gì quan trọng ở thời điểm hiện tại.”

Liệu điều này có thay đổi trong tương lai gần?

Từ đó đặt ra vấn đề lớn thứ hai: Nguồn lực nào để liên tục đào tạo AI với lượng dữ liệu được sinh ra mỗi ngày trên Internet? Điều này là rất khó khăn.

Thách thức rõ ràng nhất là lượng sức mạnh tính toán khổng lồ cần thiết để liên tục đào tạo AI và chi phí tài chính liên quan đến các nguồn lực này. Google trang trải chi phí tìm kiếm bằng cách bá.n quảng cáo, từ đó cho phép Google cung cấp dịch vụ miễn phí. Ngoài ra, chi phí năng lượng cao (cần có để đào tạo các mô hình AI LLM) khiến đào tạo AI với lượng dữ liệu mới trở nên khó khăn hơn, đặc biệt nếu mục đích là xử lý kết quả truy vấn của người dùng nhanh chóng, như với tốc độ mà Google đang thực hiện.

Nhưng ngay cả khi các công ty vượt qua thách thức kỹ thuật và tài chính này, vẫn còn vấn đề khác, đó là: TÍNH CHÍNH XÁC. Công cụ như ChatGPT sẽ học hỏi gì và học hỏi từ ai?

Điều này đặt ra vấn đề về tính minh bạch: Người dùng không biết nguồn thông tin (gốc) nào đằng sau câu trả lời của một công cụ như ChatGPT. Và các AI thường sẽ không cung cấp cho người dùng nguồn thông tin tham khảo. Điều này tạo ra một tình huống nguy hiểm khi có thể AI sẽ cố tình thiên vị. OpenAI đang làm việc để giải quyết thách thức này với WebGPT, một phiên bản của công cụ AI được đào tạo để trích dẫn các nguồn tham khảo, nhưng hiệu quả của WebGPT vẫn chưa rõ ràng (bạn có thể xem thông tin về WebGPT trên website OpenAI từ năm 2021).

Tính chính xác là một vấn đề rất quan trọng của các công cụ AI như ChatGPT. Ngoài ra, còn một vấn đề nữa đó là bản quyền thông tin. Như các bạn có thể thấy hiện nay, ChatGPT được tự đo lấy thông tin mà không trả phí cho nguồn thông tin mà công cụ này tham chiếu (điều này dẫn đến các vụ kiện vi phạm bản quyền gần đây).

Một hướng phát triển của các công cụ AI như ChatGPT hiện nay đó là “đào tạo hẹp/đào tạo chuyên sâu” – Vertical search/vertical LLMs

Chi tiết bạn có thể xem ở bài viết sau trên #HarvardBusinessReview: https://hbr.org/2023/02/generative-ai-wont-revolutionize-search-yet

Xem thêm: Chia sẻ trải nghiệm 3 tạp chí Harvard Business Review, Business Insider và The Economist