Rockset 是一个为云构建的实时搜索和分析数据库。Rockset 使用 融合索引™,它带有高效的向量嵌入存储,能够大规模提供低延迟、高并发的搜索查询。Rockset 完全支持元数据过滤,并处理不断更新的流数据的实时摄取。本笔记本演示了如何在 LangChain 中使用
Rockset 作为向量存储。在开始之前,请确保您拥有 Rockset 账户和可用的 API 密钥。立即开始您的免费试用。 您需要通过 pip install -qU langchain-community 安装 langchain-community 才能使用此集成。设置您的环境
-
利用
Rockset控制台,以写入 API 作为源创建集合。在此演练中,我们创建一个名为langchain_demo的集合。 配置以下摄取转换,以标记您的嵌入字段并利用性能和存储优化: (在此示例中,我们使用了 OpenAI 的text-embedding-ada-002,其中 #向量嵌入长度 = 1536)
-
创建集合后,使用控制台检索API 密钥。为了本笔记本的目的,我们假设您正在使用
Oregon(us-west-2)区域。 -
安装 rockset-python-client,以使 LangChain 能够直接与
Rockset通信。
LangChain 教程
在您自己的 Python 笔记本中跟着操作,在 Rockset 中生成并存储向量嵌入。开始使用 Rockset 搜索与您的搜索查询相似的文档。1. 定义关键变量
2. 准备文档
3. 插入文档
4. 搜索相似文档
5. 使用筛选条件搜索相似文档
6. [可选] 删除已插入的文档
您必须拥有与每个文档关联的唯一 ID 才能将其从集合中删除。使用Rockset.add_texts() 插入文档时定义 ID。否则,Rockset 将为每个文档生成一个唯一 ID。无论如何,Rockset.add_texts() 返回插入文档的 ID。 要删除这些文档,只需使用 Rockset.delete_texts() 函数。总结
在本教程中,我们成功创建了一个Rockset 集合,使用 OpenAI 嵌入 插入 了文档,并在有和没有元数据筛选器的情况下搜索了相似文档。 请关注 rockset.com/,了解该领域的未来更新。以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。