Google Vertex AI 特征存储

Google Cloud Vertex 特征存储通过以低延迟在 Google Cloud BigQuery 中提供数据（包括执行嵌入的近似邻居检索的能力），简化了您的 ML 特征管理和在线服务流程

本教程将向您展示如何轻松地直接从 BigQuery 数据执行低延迟向量搜索和近似最近邻检索，从而以最少的设置启用强大的 ML 应用程序。我们将使用 VertexFSVectorStore 类来完成此操作。此类是能够提供 Google Cloud 中统一数据存储和灵活向量搜索的两类中的一部分：

BigQuery 向量搜索：使用 BigQueryVectorStore 类，它非常适合无需基础设施设置的快速原型设计和批量检索。
特征存储在线存储：使用 VertexFSVectorStore 类，通过手动或计划数据同步实现低延迟检索。非常适合生产就绪的面向用户的 GenAI 应用程序。

入门

安装库

pip install -qU  langchain langchain-google-vertexai "langchain-google-community[featurestore]"

要在此 Jupyter 运行时中使用新安装的软件包，您必须重新启动运行时。您可以通过运行以下单元格来完成此操作，该单元格将重新启动当前内核。

import IPython

app = IPython.Application.instance()
app.kernel.do_shutdown(True)

开始之前

设置您的项目 ID

如果您不知道您的项目 ID，请尝试以下操作

运行 gcloud config list。
运行 gcloud projects list。
查看支持页面：查找项目 ID。

PROJECT_ID = ""  # @param {type:"string"}

# Set the project id
! gcloud config set project {PROJECT_ID}

设置区域

您还可以更改 BigQuery 使用的 REGION 变量。了解更多关于 BigQuery 区域的信息。

REGION = "us-central1"  # @param {type: "string"}

设置数据集和表名

它们将成为您的 BigQuery 向量存储。

DATASET = "my_langchain_dataset"  # @param {type: "string"}
TABLE = "doc_and_vectors"  # @param {type: "string"}

验证您的笔记本环境

如果您正在使用 Colab 运行此笔记本，请取消注释以下单元格并继续。
如果您正在使用 Vertex AI Workbench，请查看此处的设置说明。

# from google.colab import auth as google_auth

# google_auth.authenticate_user()

演示：VertexFSVectorStore

创建嵌入类实例

您可能需要通过运行 gcloud services enable aiplatform.googleapis.com --project {PROJECT_ID} 在您的项目中启用 Vertex AI API（将 {PROJECT_ID} 替换为您的项目名称）。您可以使用任何 LangChain 嵌入模型。

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest", project=PROJECT_ID
)

初始化 VertexFSVectorStore

如果 BigQuery 数据集和表不存在，它们将自动创建。请参阅此处的类定义，了解所有可选参数。

from langchain_google_community import VertexFSVectorStore

store = VertexFSVectorStore(
    project_id=PROJECT_ID,
    dataset_name=DATASET,
    table_name=TABLE,
    location=REGION,
    embedding=embedding,
)

添加文本

注意：由于创建特征在线存储，第一次同步过程将需要大约 20 分钟。

all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]

store.add_texts(all_texts, metadatas=metadatas)

您还可以通过执行 sync_data 方法按需启动同步。

store.sync_data()

在生产环境中，您还可以使用 cron_schedule 类参数来设置自动计划同步。例如

store = VertexFSVectorStore(cron_schedule="TZ=America/Los_Angeles 00 13 11 8 *", ...)

搜索文档

query = "I'd like a fruit."
docs = store.similarity_search(query)
print(docs)

按向量搜索文档

query_vector = embedding.embed_query(query)
docs = store.similarity_search_by_vector(query_vector, k=2)
print(docs)

使用元数据过滤器搜索文档

# This should only return "Banana" document.
docs = store.similarity_search_by_vector(query_vector, filter={"len": 6})
print(docs)

添加带有嵌入的文本

您还可以使用 add_texts_with_embeddings 方法引入自己的嵌入。这对于多模态数据特别有用，因为这些数据在嵌入生成之前可能需要自定义预处理。

items = ["some text"]
embs = embedding.embed(items)

ids = store.add_texts_with_embeddings(
    texts=["some text"], embs=embs, metadatas=[{"len": 1}]
)

使用 BigQuery 进行批量服务

您只需使用 .to_bq_vector_store() 方法即可获得一个 BigQueryVectorStore 对象，该对象为批量用例提供了优化的性能。所有强制参数将自动从现有类中传输。请参阅类定义，了解您可以使用的所有参数。使用 .to_vertex_fs_vector_store() 方法可以同样轻松地返回 BigQueryVectorStore。

store.to_bq_vector_store()  # pass optional VertexFSVectorStore parameters as arguments

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

热门提供商

按组件划分的集成

入门

安装库

开始之前

设置您的项目 ID

设置区域

设置数据集和表名

验证您的笔记本环境

演示：VertexFSVectorStore

创建嵌入类实例

初始化 VertexFSVectorStore

添加文本

搜索文档

按向量搜索文档

使用元数据过滤器搜索文档

添加带有嵌入的文本

使用 BigQuery 进行批量服务

热门提供商

按组件划分的集成

​入门

​安装库

​开始之前

​设置您的项目 ID

​设置区域

​设置数据集和表名

​验证您的笔记本环境

​演示：VertexFSVectorStore

​创建嵌入类实例

​初始化 VertexFSVectorStore

​添加文本

​搜索文档

​按向量搜索文档

​使用元数据过滤器搜索文档

​添加带有嵌入的文本

​使用 BigQuery 进行批量服务

入门

安装库

开始之前

设置您的项目 ID

设置区域

设置数据集和表名

验证您的笔记本环境

演示：VertexFSVectorStore

创建嵌入类实例

初始化 VertexFSVectorStore

添加文本

搜索文档

按向量搜索文档

使用元数据过滤器搜索文档

添加带有嵌入的文本

使用 BigQuery 进行批量服务