设置
要访问 Databricks 模型,您需要创建一个 Databricks 帐户,设置凭据(仅当您在 Databricks 工作区之外时),并安装所需的包。凭证(仅当您在 Databricks 外部时)
如果您在 Databricks 内部运行 LangChain 应用程序,则可以跳过此步骤。 否则,您需要手动将 Databricks 工作区主机名和个人访问令牌分别设置为DATABRICKS_HOST 和 DATABRICKS_TOKEN 环境变量。有关如何获取访问令牌,请参阅身份验证文档。安装
LangChain Databricks 集成位于databricks-langchain 包中。
创建向量搜索端点和索引(如果尚未创建)
在本节中,我们将使用客户端 SDK 创建一个 Databricks 向量搜索端点和索引。 如果您已经拥有端点和索引,则可以跳过本节,直接进入“实例化”一节。 首先,实例化 Databricks VectorSearch 客户端:DatabricksVectorSearch 类支持这两种用例。
- Delta 同步索引自动与源 Delta 表同步,当 Delta 表中的基础数据发生变化时,会自动增量更新索引。
- 直接向量访问索引支持直接读写向量和元数据。用户负责使用 REST API 或 Python SDK 更新此表。
实例化
DatabricksVectorSearch 的实例化根据您的索引是使用 Databricks 管理的嵌入还是自管理嵌入(即您选择的 LangChain 嵌入对象)而略有不同。 如果您正在使用带有 Databricks 管理的嵌入的 delta-sync 索引:管理向量存储
向向量存储添加项目
注意:通过add_documents 方法将项目添加到向量存储仅支持直接访问索引。
从向量存储中删除项目
注意:通过delete 方法从向量存储中删除项目仅支持直接访问索引。
查询向量存储
一旦您的向量存储被创建并添加了相关文档,您很可能希望在链或代理运行期间查询它。直接查询
执行简单的相似性搜索可以按如下方式完成columns 参数中传递附加列。
通过转换为检索器进行查询
您还可以将向量存储转换为检索器,以便在您的链中更轻松地使用。用于检索增强生成的使用
有关如何将此向量存储用于检索增强生成 (RAG) 的指南,请参阅以下部分API 参考
有关所有 DatabricksVectorSearch 功能和配置的详细文档,请参阅 API 参考:api-docs.databricks.com/python/databricks-ai-bridge/latest/databricks_langchain.html#databricks_langchain.DatabricksVectorSearch以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。