Databricks Lakehouse 平台在一个平台上统一了数据、分析和 AI。本指南提供了 Databricks 嵌入模型 的快速入门概述。有关所有
DatabricksEmbeddings 功能和配置的详细文档,请参阅API 参考。
概览
集成详情
支持的方法
DatabricksEmbeddings 支持 Embeddings 类的所有方法,包括异步 API。
端点要求
DatabricksEmbeddings 封装的服务端点必须具有 OpenAI 兼容的嵌入输入/输出格式(参考)。只要输入格式兼容,DatabricksEmbeddings 就可以用于托管在 Databricks 模型服务 上的任何端点类型。
- 基础模型 - 精选了一系列最先进的基础模型,例如 BAAI 通用嵌入 (BGE)。这些端点可以直接在您的 Databricks 工作区中使用,无需任何设置。
- 自定义模型 - 您还可以通过 MLflow 将自定义嵌入模型部署到服务终结点,并选择您喜欢的框架,如 LangChain、Pytorch、Transformers 等。
- 外部模型 - Databricks 端点可以作为代理,服务托管在 Databricks 之外的模型,例如专有模型服务(如 OpenAI text-embedding-3)。
设置
要访问 Databricks 模型,您需要创建一个 Databricks 帐户,设置凭据(仅当您在 Databricks 工作区之外时),并安装所需的包。凭证(仅当您在 Databricks 外部时)
如果您在 Databricks 内部运行 LangChain 应用程序,则可以跳过此步骤。 否则,您需要手动将 Databricks 工作区主机名和个人访问令牌分别设置为DATABRICKS_HOST 和 DATABRICKS_TOKEN 环境变量。有关如何获取访问令牌,请参阅身份验证文档。安装
LangChain Databricks 集成位于databricks-langchain 包中
实例化
索引和检索
嵌入模型通常用于检索增强生成 (RAG) 流程,既作为数据索引的一部分,也用于后续检索数据。有关更详细的说明,请参阅我们的RAG 教程。 下面,我们将演示如何使用我们上面初始化的embeddings 对象来索引和检索数据。在此示例中,我们将在 InMemoryVectorStore 中索引和检索一个示例文档。直接使用
在底层,向量存储和检索器实现正在调用embeddings.embed_documents(...) 和 embeddings.embed_query(...) 分别为 from_texts 和检索 invoke 操作中使用的文本创建嵌入。 您可以直接调用这些方法来为自己的用例获取嵌入。嵌入单个文本
您可以使用embed_query 嵌入单个文本或文档
嵌入多个文本
您可以使用embed_documents 嵌入多个文本
异步用法
您还可以使用aembed_query 和 aembed_documents 异步生成嵌入。
API 参考
有关DatabricksEmbeddings 功能和配置选项的详细文档,请参阅 API 参考。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。