使用 LangChain 构建 RAG 代理

概览

LLM 赋能的最强大应用之一是复杂的问答 (Q&A) 聊天机器人。这些应用程序可以回答有关特定来源信息的问题。这些应用程序使用一种称为检索增强生成 (Retrieval Augmented Generation)，或简称 RAG 的技术。本教程将展示如何构建一个基于非结构化文本数据源的简单问答应用程序。我们将演示：

一个 RAG 代理，它使用简单的工具执行搜索。这是一个很好的通用实现。
一个两步 RAG 链，每个查询只使用一次 LLM 调用。这是一种针对简单查询的快速有效方法。

概念

我们将涵盖以下概念

索引：一个用于从源摄取数据并对其进行索引的管道。这通常在单独的进程中发生。
检索和生成：实际的 RAG 过程，它在运行时获取用户查询并从索引中检索相关数据，然后将其传递给模型。

一旦我们对数据进行了索引，我们将使用代理作为我们的编排框架来实现检索和生成步骤。

本教程的索引部分将主要遵循语义搜索教程。如果您的数据已经可供搜索（即您有一个执行搜索的函数），或者您对该教程中的内容感到满意，请随意跳到检索和生成部分。

预览

在本指南中，我们将构建一个应用程序，用于回答有关网站内容的问题。我们将使用的特定网站是 Lilian Weng 的LLM Powered Autonomous Agents博客文章，它允许我们提出有关文章内容的问题。我们可以创建一个简单的索引管道和 RAG 链，在大约 40 行代码中完成此操作。请参阅下面的完整代码片段：

展开以查看完整代码片段

import "cheerio";
import { createAgent, tool } from "langchain";
import { CheerioWebBaseLoader } from "@langchain/community/document_loaders/web/cheerio";
import { RecursiveCharacterTextSplitter } from "@langchain/textsplitters";
import * as z from "zod";

// Load and chunk contents of blog
const pTagSelector = "p";
const cheerioLoader = new CheerioWebBaseLoader(
  "https://lilianweng.github.io/posts/2023-06-23-agent/",
  {
    selector: pTagSelector
  }
);

const docs = await cheerioLoader.load();

const splitter = new RecursiveCharacterTextSplitter({
  chunkSize: 1000,
  chunkOverlap: 200
});
const allSplits = await splitter.splitDocuments(docs);

// Index chunks
await vectorStore.addDocuments(allSplits)

// Construct a tool for retrieving context
const retrieveSchema = z.object({ query: z.string() });

const retrieve = tool(
  async ({ query }) => {
    const retrievedDocs = await vectorStore.similaritySearch(query, 2);
    const serialized = retrievedDocs
      .map(
        (doc) => `Source: ${doc.metadata.source}\nContent: ${doc.pageContent}`
      )
      .join("\n");
    return [serialized, retrievedDocs];
  },
  {
    name: "retrieve",
    description: "Retrieve information related to a query.",
    schema: retrieveSchema,
    responseFormat: "content_and_artifact",
  }
);

const agent = createAgent({ model: "gpt-5", tools: [retrieve] });

let inputMessage = `What is Task Decomposition?`;

let agentInputs = { messages: [{ role: "user", content: inputMessage }] };

for await (const step of await agent.stream(agentInputs, {
  streamMode: "values",
})) {
  const lastMessage = step.messages[step.messages.length - 1];
  prettyPrint(lastMessage);
  console.log("-----\n");
}

查看 LangSmith 追踪。

设置

安装

本教程需要这些 Langchain 依赖项

npm i langchain @langchain/community @langchain/textsplitters

有关更多详细信息，请参阅我们的安装指南。

LangSmith

您使用 LangChain 构建的许多应用程序将包含多个步骤和多次 LLM 调用。随着这些应用程序变得越来越复杂，能够精确检查链或代理内部发生了什么变得至关重要。最好的方法是使用 LangSmith。在您通过上述链接注册后，请务必设置您的环境变量以开始记录跟踪：

export LANGSMITH_TRACING="true"
export LANGSMITH_API_KEY="..."

组件

我们需要从 LangChain 的集成套件中选择三个组件。选择一个聊天模型：

OpenAI
Anthropic
Azure
Google Gemini
Bedrock Converse

👉 阅读OpenAI 聊天模型集成文档

npm install @langchain/openai

import { initChatModel } from "langchain";

process.env.OPENAI_API_KEY = "your-api-key";

const model = await initChatModel("gpt-4.1");

选择一个嵌入模型

OpenAI
Azure
AWS
VertexAI
MistralAI
Cohere

npm i @langchain/openai

import { OpenAIEmbeddings } from "@langchain/openai";

const embeddings = new OpenAIEmbeddings({
  model: "text-embedding-3-large"
});

选择一个向量存储

内存
Chroma
FAISS
MongoDB
PGVector
Pinecone
Qdrant

npm i @langchain/classic

import { MemoryVectorStore } from "@langchain/classic/vectorstores/memory";

const vectorStore = new MemoryVectorStore(embeddings);

1. 索引

本节是语义搜索教程中内容的缩写版本。如果您的数据已编入索引并可供搜索（即，您有一个执行搜索的函数），或者如果您熟悉文档加载器、嵌入和向量存储，请随意跳到下一节检索和生成。

索引通常按以下方式工作

加载：首先我们需要加载我们的数据。这是通过文档加载器完成的。
拆分：文本拆分器将大型 Documents 分成更小的块。这对于索引数据和将其传递到模型都很有用，因为大块更难搜索并且不适合模型的有限上下文窗口。
存储：我们需要一个地方来存储和索引我们的拆分，以便以后可以对其进行搜索。这通常使用向量存储和嵌入模型来完成。

加载文档

我们首先需要加载博客文章内容。我们可以为此使用文档加载器，它们是从源加载数据并返回 Document 对象列表的对象。

import "cheerio";
import { CheerioWebBaseLoader } from "@langchain/community/document_loaders/web/cheerio";

const pTagSelector = "p";
const cheerioLoader = new CheerioWebBaseLoader(
  "https://lilianweng.github.io/posts/2023-06-23-agent/",
  {
    selector: pTagSelector,
  }
);

const docs = await cheerioLoader.load();

console.assert(docs.length === 1);
console.log(`Total characters: ${docs[0].pageContent.length}`);

Total characters: 22360

console.log(docs[0].pageContent.slice(0, 500));

Building agents with LLM (large language model) as its core controller is...

深入了解 DocumentLoader：从源加载数据作为 Documents 列表的对象。

集成：160+ 个集成可供选择。
BaseLoader：基础接口的 API 参考。

拆分文档

我们加载的文档有超过 4.2 万个字符，对于许多模型的上下文窗口来说太长了。即使对于那些能够将完整文章放入其上下文窗口的模型，模型也可能难以在非常长的输入中找到信息。为了解决这个问题，我们将把 Document 拆分成块，用于嵌入和向量存储。这应该有助于我们在运行时只检索博客文章最相关的部分。与语义搜索教程中一样，我们使用 RecursiveCharacterTextSplitter，它将使用换行符等常见分隔符递归拆分文档，直到每个块都达到适当的大小。这是通用文本用例推荐的文本拆分器。

import { RecursiveCharacterTextSplitter } from "@langchain/textsplitters";

const splitter = new RecursiveCharacterTextSplitter({
  chunkSize: 1000,
  chunkOverlap: 200,
});
const allSplits = await splitter.splitDocuments(docs);
console.log(`Split blog post into ${allSplits.length} sub-documents.`);

Split blog post into 29 sub-documents.

存储文档

现在我们需要索引 66 个文本块，以便在运行时可以对其进行搜索。遵循语义搜索教程，我们的方法是嵌入每个文档拆分的内容，并将这些嵌入插入向量存储中。给定输入查询，我们可以使用向量搜索来检索相关文档。我们可以使用在教程开始时选择的向量存储和嵌入模型，通过一个命令嵌入并存储所有文档拆分。

await vectorStore.addDocuments(allSplits);

深入了解 Embeddings：文本嵌入模型的包装器，用于将文本转换为嵌入。

集成：30 多个集成可供选择。
接口：基础接口的 API 参考。

VectorStore：向量数据库的包装器，用于存储和查询嵌入。

集成：40 多个集成可供选择。
接口：基础接口的 API 参考。

这完成了管道的索引部分。此时，我们有一个可查询的向量存储，其中包含我们博客文章的分块内容。给定用户问题，我们应该能够理想地返回博客文章中回答该问题的片段。

2. 检索与生成

RAG 应用程序通常按以下方式工作

检索：给定用户输入，使用检索器从存储中检索相关拆分。
生成：模型使用包含问题和检索数据的提示生成答案

现在让我们编写实际的应用程序逻辑。我们希望创建一个简单的应用程序，它接收用户问题，搜索与该问题相关的文档，将检索到的文档和初始问题传递给模型，并返回答案。我们将演示：

一个 RAG 代理，它使用简单的工具执行搜索。这是一个很好的通用实现。
一个两步 RAG 链，每个查询只使用一次 LLM 调用。这是一种针对简单查询的快速有效方法。

RAG 代理

RAG 应用程序的一种形式是作为一个简单的代理，带有一个检索信息的工具。我们可以通过实现一个包装我们向量存储的工具来组装一个最小的 RAG 代理。

import * as z from "zod";
import { tool } from "@langchain/core/tools";

const retrieveSchema = z.object({ query: z.string() });

const retrieve = tool(
  async ({ query }) => {
    const retrievedDocs = await vectorStore.similaritySearch(query, 2);
    const serialized = retrievedDocs
      .map(
        (doc) => `Source: ${doc.metadata.source}\nContent: ${doc.pageContent}`
      )
      .join("\n");
    return [serialized, retrievedDocs];
  },
  {
    name: "retrieve",
    description: "Retrieve information related to a query.",
    schema: retrieveSchema,
    responseFormat: "content_and_artifact",
  }
);

这里我们将 responseFormat 指定为 content_and_artifact，以配置工具将原始文档作为 artifact 附加到每个 ToolMessage。这将使我们能够在应用程序中访问文档元数据，与发送到模型的字符串表示形式分开。

给定我们的工具，我们可以构建代理：给定我们的工具，我们可以构建代理：

import { createAgent } from "langchain";

const tools = [retrieve];
const systemPrompt = new SystemMessage(
    "You have access to a tool that retrieves context from a blog post. " +
    "Use the tool to help answer user queries."
)

const agent = createAgent({ model: "gpt-5", tools, systemPrompt });

让我们来测试一下。我们构建了一个通常需要迭代检索步骤才能回答的问题

let inputMessage = `What is the standard method for Task Decomposition?
Once you get the answer, look up common extensions of that method.`;

let agentInputs = { messages: [{ role: "user", content: inputMessage }] };

const stream = await agent.stream(agentInputs, {
  streamMode: "values",
});
for await (const step of stream) {
  const lastMessage = step.messages[step.messages.length - 1];
  console.log(`[${lastMessage.role}]: ${lastMessage.content}`);
  console.log("-----\n");
}

[human]: What is the standard method for Task Decomposition?
Once you get the answer, look up common extensions of that method.
-----

[ai]:
Tools:
- retrieve({"query":"standard method for Task Decomposition"})
-----

[tool]: Source: https://lilianweng.github.io/posts/2023-06-23-agent/
Content: hard tasks into smaller and simpler steps...
Source: https://lilianweng.github.io/posts/2023-06-23-agent/
Content: System message:Think step by step and reason yourself...
-----

[ai]:
Tools:
- retrieve({"query":"common extensions of Task Decomposition method"})
-----

[tool]: Source: https://lilianweng.github.io/posts/2023-06-23-agent/
Content: hard tasks into smaller and simpler steps...
Source: https://lilianweng.github.io/posts/2023-06-23-agent/
Content: be provided by other developers (as in Plugins) or self-defined...
-----

[ai]: ### Standard Method for Task Decomposition

The standard method for task decomposition involves...
-----

请注意，代理

生成一个查询，以搜索任务分解的标准方法；
收到答案后，生成第二个查询，以搜索其常见的扩展；
收到所有必要的上下文后，回答问题。

我们可以在 LangSmith 追踪中看到完整的步骤序列，以及延迟和其他元数据。

您可以使用 LangGraph 框架直接添加更深层次的控制和自定义——例如，您可以添加步骤来评估文档相关性并重写搜索查询。请查看 LangGraph 的 Agentic RAG 教程以了解更高级的表述。

RAG 链

在上述 agentic RAG 公式中，我们允许 LLM 酌情生成工具调用以帮助回答用户查询。这是一种很好的通用解决方案，但也有一些权衡

✅ 优点	⚠️ 缺点
仅在需要时搜索 – LLM 可以处理问候语、后续问题和简单查询，而无需触发不必要的搜索。	两次推理调用 – 执行搜索时，需要一次调用来生成查询，另一次调用来生成最终响应。
上下文搜索查询 – 通过将搜索视为具有 `query` 输入的工具，LLM 会创建自己的查询，其中包含对话上下文。	控制力降低 – LLM 可能会在实际需要搜索时跳过搜索，或者在不必要时发出额外的搜索。
允许多次搜索 – LLM 可以执行多次搜索以支持单个用户查询。

另一种常见方法是两步链，我们总是运行搜索（可能使用原始用户查询），并将结果作为单个 LLM 查询的上下文。这导致每个查询只进行一次推理调用，以牺牲灵活性为代价降低延迟。在此方法中，我们不再循环调用模型，而是进行单次传递。我们可以通过从代理中删除工具并将检索步骤合并到自定义提示中来实现此链：

import { createAgent, dynamicSystemPromptMiddleware } from "langchain";
import { SystemMessage } from "@langchain/core/messages";

const agent = createAgent({
  model,
  tools: [],
  middleware: [
    dynamicSystemPromptMiddleware(async (state) => {
        const lastQuery = state.messages[state.messages.length - 1].content;

        const retrievedDocs = await vectorStore.similaritySearch(lastQuery, 2);

        const docsContent = retrievedDocs
        .map((doc) => doc.pageContent)
        .join("\n\n");

        // Build system message
        const systemMessage = new SystemMessage(
        `You are a helpful assistant. Use the following context in your response:\n\n${docsContent}`
        );

        // Return system + existing messages
        return [systemMessage, ...state.messages];
    })
  ]
});

我们来试试看

let inputMessage = `What is Task Decomposition?`;

let chainInputs = { messages: [{ role: "user", content: inputMessage }] };

const stream = await agent.stream(chainInputs, {
  streamMode: "values",
})
for await (const step of stream) {
  const lastMessage = step.messages[step.messages.length - 1];
  prettyPrint(lastMessage);
  console.log("-----\n");
}

在 LangSmith 跟踪中，我们可以看到检索到的上下文已合并到模型提示中。这是一种在受限设置中处理简单查询的快速有效方法，我们通常希望通过语义搜索运行用户查询以提取额外的上下文。

返回源文档

上述 RAG 链将检索到的上下文合并到该运行的单个系统消息中。与 agentic RAG 公式一样，我们有时希望在应用程序状态中包含原始源文档，以便访问文档元数据。我们可以通过以下方式为两步链案例执行此操作：

向状态添加一个键以存储检索到的文档
通过 pre-model hook 添加一个新节点来填充该键（并注入上下文）。

import { createMiddleware, Document, createAgent } from "langchain";
import { MessagesZodSchema } from "@langchain/langgraph";

const StateSchema = z.object({
  messages: MessagesZodSchema,
  context: z.array(z.custom<Document>()),
})

const retrieveDocumentsMiddleware = createMiddleware({
  stateSchema: StateSchema,
  beforeModel: async (state) => {
    const lastMessage = state.messages[state.messages.length - 1].content;
    const retrievedDocs = await vectorStore.similaritySearch(lastMessage, 2);

    const docsContent = retrievedDocs
      .map((doc) => doc.pageContent)
      .join("\n\n");

    const augmentedMessageContent = [
        ...lastMessage.content,
        { type: "text", text: `Use the following context to answer the query:\n\n${docsContent}` }
    ]

    // Below we augment each input message with context, but we could also
    // modify just the system message, as before.
    return {
      messages: [{
        ...lastMessage,
        content: augmentedMessageContent,
      }]
      context: retrievedDocs,
    }
  },
});

const agent = createAgent({
  model,
  tools: [],
  middleware: [retrieveDocumentsMiddleware],
});

后续步骤

现在我们已经通过 @[create_agent] 实现了一个简单的 RAG 应用程序，我们可以轻松地整合新功能并深入挖掘

流式传输令牌和其他信息，以提供响应式用户体验
添加对话记忆以支持多轮交互
添加长期记忆以支持跨对话线程的记忆
添加结构化响应
使用 LangSmith 部署部署您的应用程序

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

教程

概念概述

LangChain 学院

附加资源

使用 LangChain 构建 RAG 代理

概览

概念

预览

设置

安装

LangSmith

组件

1. 索引

加载文档

拆分文档

存储文档

2. 检索与生成

RAG 代理

RAG 链

后续步骤

教程

概念概述

LangChain 学院

附加资源

​概览

​概念

​预览

​设置

​安装

​LangSmith

​组件

​1. 索引

​加载文档

​拆分文档

​存储文档

​2. 检索与生成

​RAG 代理

​RAG 链

​后续步骤

概览

概念

预览

设置

安装

LangSmith

组件

1. 索引

加载文档

拆分文档

存储文档

2. 检索与生成

RAG 代理

RAG 链

后续步骤