Google BigQuery 向量搜索

Google Cloud BigQuery 向量搜索允许您使用 GoogleSQL 进行语义搜索，使用向量索引实现快速近似结果，或使用暴力搜索实现精确结果。

本教程演示了如何在 LangChain 中使用端到端数据和嵌入管理系统，并使用 BigQueryVectorStore 类在 BigQuery 中提供可扩展的语义搜索。此类是能够提供 Google Cloud 中统一数据存储和灵活向量搜索的 2 个类集中的一部分。

BigQuery 向量搜索：使用 BigQueryVectorStore 类，它非常适合无需基础设施设置的快速原型设计和批量检索。
Feature Store 在线存储：使用 VertexFSVectorStore 类，通过手动或计划数据同步实现低延迟检索。非常适合生产就绪的面向用户的 GenAI 应用程序。

入门

安装库

pip install -qU  langchain langchain-google-vertexai "langchain-google-community[featurestore]"

要在当前的 Jupyter 运行时中使用新安装的包，您必须重新启动运行时。您可以通过运行下面的单元格来完成此操作，它将重新启动当前内核。

import IPython

app = IPython.Application.instance()
app.kernel.do_shutdown(True)

开始之前

设置您的项目 ID

如果您不知道您的项目 ID，请尝试以下操作

运行 gcloud config list。
运行 gcloud projects list。
查看支持页面：查找项目 ID。

PROJECT_ID = ""  # @param {type:"string"}

# Set the project id
! gcloud config set project {PROJECT_ID}

设置区域

您还可以更改 BigQuery 使用的 REGION 变量。了解更多关于 BigQuery 区域的信息。

REGION = "us-central1"  # @param {type: "string"}

设置数据集和表名

它们将是您的 BigQuery 向量存储。

DATASET = "my_langchain_dataset"  # @param {type: "string"}
TABLE = "doc_and_vectors"  # @param {type: "string"}

验证您的笔记本环境

如果您正在使用 Colab 运行此笔记本，请取消注释下面的单元格并继续。
如果您正在使用 Vertex AI Workbench，请查看此处的设置说明。

# from google.colab import auth as google_auth

# google_auth.authenticate_user()

演示：BigQueryVectorStore

创建嵌入类实例

您可能需要通过运行 gcloud services enable aiplatform.googleapis.com --project {PROJECT_ID} 在您的项目中启用 Vertex AI API（将 {PROJECT_ID} 替换为您的项目名称）。您可以使用任何 LangChain 嵌入模型。

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest", project=PROJECT_ID
)

初始化 BigQueryVectorStore

如果 BigQuery 数据集和表不存在，它们将自动创建。有关所有可选参数，请参阅此处的类定义。

from langchain_google_community import BigQueryVectorStore

store = BigQueryVectorStore(
    project_id=PROJECT_ID,
    dataset_name=DATASET,
    table_name=TABLE,
    location=REGION,
    embedding=embedding,
)

添加文本

all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]

store.add_texts(all_texts, metadatas=metadatas)

搜索文档

query = "I'd like a fruit."
docs = store.similarity_search(query)
print(docs)

按向量搜索文档

query_vector = embedding.embed_query(query)
docs = store.similarity_search_by_vector(query_vector, k=2)
print(docs)

使用元数据过滤器搜索文档

向量存储支持两种方法，用于在执行文档搜索时对元数据字段应用过滤器。

基于字典的过滤器
- 您可以传递一个字典（dict），其中键表示元数据字段，值指定过滤条件。此方法在键和相应值之间应用相等过滤器。当提供多个键值对时，它们使用逻辑 AND 操作组合。
基于 SQL 的过滤器
- 或者，您可以提供一个表示 SQL WHERE 子句的字符串，以定义更复杂的过滤条件。这允许更大的灵活性，支持 SQL 表达式，例如比较运算符和逻辑运算符。了解更多关于 BigQuery 运算符的信息。

# Dictionary-based Filters
# This should only return "Banana" document.
docs = store.similarity_search_by_vector(query_vector, filter={"len": 6})
print(docs)

# SQL-based Filters
# This should return "Banana", "Apples and oranges" and "Cars and airplanes" documents.
docs = store.similarity_search_by_vector(query_vector, filter="len = 6 AND len > 17")
print(docs)

批量搜索

BigQueryVectorStore 提供了一个 batch_search 方法，用于可扩展的向量相似性搜索。

results = store.batch_search(
    embeddings=None,  # can pass embeddings or
    queries=["search_query", "search_query"],  # can pass queries
)

添加带嵌入的文本

您还可以使用 add_texts_with_embeddings 方法引入您自己的嵌入。这对于多模态数据特别有用，这些数据在嵌入生成之前可能需要自定义预处理。

items = ["some text"]
embs = embedding.embed(items)

ids = store.add_texts_with_embeddings(
    texts=["some text"], embs=embs, metadatas=[{"len": 1}]
)

使用 Feature Store 实现低延迟服务

您只需使用 .to_vertex_fs_vector_store() 方法即可获取 VertexFSVectorStore 对象，该对象为在线用例提供低延迟。所有强制参数将自动从现有的 BigQueryVectorStore 类中传输。有关您可以使用的所有其他参数，请参阅类定义。使用 .to_bq_vector_store() 方法返回 BigQueryVectorStore 也同样容易。

store.to_vertex_fs_vector_store()  # pass optional VertexFSVectorStore parameters as arguments

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

热门提供商

按组件划分的集成

入门

安装库

开始之前

设置您的项目 ID

设置区域

设置数据集和表名

验证您的笔记本环境

演示：BigQueryVectorStore

创建嵌入类实例

初始化 BigQueryVectorStore

添加文本

搜索文档

按向量搜索文档

使用元数据过滤器搜索文档

批量搜索

添加带嵌入的文本

使用 Feature Store 实现低延迟服务

热门提供商

按组件划分的集成

​入门

​安装库

​开始之前

​设置您的项目 ID

​设置区域

​设置数据集和表名

​验证您的笔记本环境

​演示：BigQueryVectorStore

​创建嵌入类实例

​初始化 BigQueryVectorStore

​添加文本

​搜索文档

​按向量搜索文档

​使用元数据过滤器搜索文档

​批量搜索

​添加带嵌入的文本

​使用 Feature Store 实现低延迟服务

入门

安装库

开始之前

设置您的项目 ID

设置区域

设置数据集和表名

验证您的笔记本环境

演示：BigQueryVectorStore

创建嵌入类实例

初始化 BigQueryVectorStore

添加文本

搜索文档

按向量搜索文档

使用元数据过滤器搜索文档

批量搜索

添加带嵌入的文本

使用 Feature Store 实现低延迟服务