Lý do cơ sở dữ liệu vector đang dần phổ biến trong thời kỳ cao điểm của AI

Các cơ sở dữ liệu vector đang trở nên phổ biến, được thể hiện qua số lượng các startup gia nhập vào lĩnh vực này và số vốn mà các nhà đầu tư sẵn sàng rót vào để nắm bắt cơ hội. Sự bùng nổ của các mô hình ngôn ngữ lớn (LLMs) và phong trào AI tạo sinh (GenAI) đã tạo điều kiện thuận lợi để công nghệ cơ sở dữ liệu vector phát triển mạnh mẽ.

Trong khi các cơ sở dữ liệu quan hệ truyền thống như Postgres hoặc MySQL phù hợp với dữ liệu cấu trúc — loại dữ liệu được định nghĩa trước có thể được sắp xếp gọn gàng trong hàng và cột — điều này không hiệu quả với dữ liệu không cấu trúc như hình ảnh, video, email, bài đăng trên mạng xã hội và bất kỳ dữ liệu nào không tuân theo mô hình dữ liệu được định nghĩa trước.

Ngược lại, các cơ sở dữ liệu vector lưu trữ và xử lý dữ liệu dưới dạng vector embeddings, chuyển đổi văn bản, tài liệu, hình ảnh và các loại dữ liệu khác thành biểu diễn số học bắt kịp ý nghĩa và mối quan hệ giữa các điểm dữ liệu khác nhau. Điều này hoàn hảo cho máy học, khi cơ sở dữ liệu lưu trữ dữ liệu một cách không gian dựa trên mức độ liên quan của từng mục với nhau, giúp dễ dàng truy xuất dữ liệu có ý nghĩa tương tự.

Điều này đặc biệt hữu ích cho LLMs, như GPT-4 của OpenAI, vì nó cho phép chatbot AI hiểu rõ hơn về bối cảnh của cuộc trò chuyện bằng cách phân tích những cuộc trò chuyện tương tự trước đó. Tìm kiếm vector cũng hữu ích cho mọi ứng dụng thời gian thực, như đề xuất nội dung trên mạng xã hội hay ứng dụng thương mại điện tử, vì nó có thể xem xét những gì một người dùng đã tìm kiếm và truy xuất các mục tương tự trong chớp mắt.

Tìm kiếm vector cũng có thể giúp giảm "ảo giác" trong ứng dụng LLM, bằng cách cung cấp thông tin bổ sung có thể không có sẵn trong bộ dữ liệu đào tạo gốc.

"Mà không sử dụng tìm kiếm vector tương đồng, bạn vẫn có thể phát triển ứng dụng AI/ML, nhưng bạn sẽ cần phải thực hiện nhiều việc đào tạo lại và tinh chỉnh hơn," Andre Zayarni, CEO và đồng sáng lập của startup tìm kiếm vector Qdrant, giải thích với TechCrunch. "Cơ sở dữ liệu vector trở nên quan trọng khi bạn có một bộ dữ liệu lớn và cần một công cụ để làm việc với vector embeddings một cách hiệu quả và thuận tiện."

Vào tháng Giêng, Qdrant đã giành được 28 triệu USD tiền tài trợ để tận dụng sự tăng trưởng đã đưa nó trở thành một trong số 10 startup mã nguồn mở thương mại phát triển nhanh nhất trong năm qua. Và nó không phải là startup cơ sở dữ liệu vector duy nhất gây quỹ gần đây — Vespa, Weaviate, Pinecone và Chroma đã cùng nhau gây quỹ 200 triệu USD năm ngoái cho các dịch vụ vector khác nhau.

Kể từ đầu năm, chúng ta cũng đã thấy Index Ventures dẫn đầu vòng gọi vốn hạt giống 9,5 triệu USD cho Superlinked, một nền tảng chuyển đổi dữ liệu phức tạp thành vector embeddings. Và vài tuần trước, Y Combinator (YC) đã công bố lớp học kỳ Mùa Đông ’24 của mình, bao gồm Lantern, một startup cung cấp máy chủ tìm kiếm vector được lưu trữ cho Postgres.

Nơi khác, Marqo đã gây quỹ 4,4 triệu USD trong vòng gọi vốn hạt giống muộn vào năm ngoái, tiếp nối là vòng Series A 12,5 triệu USD vào tháng Hai. Nền tảng Marqo cung cấp đầy đủ công cụ vector từ việc tạo vector cho đến lưu trữ và truy xuất, cho phép người dùng tránh sử dụng công cụ của bên thứ ba từ OpenAI hoặc Hugging Face, và nó cung cấp tất cả thông qua một API duy nhất.

Đồng sáng lập Marqo, Tom Hamer và Jesse N. Clark, trước đây đã làm việc ở các vai trò kỹ thuật tại Amazon, nơi họ nhận ra nhu cầu lớn chưa được đáp ứng cho việc tìm kiếm linh hoạt, ngữ nghĩa trên các phương diện khác nhau như văn bản và hình ảnh.