跳到主要内容
DocxLoader 允许您从 Microsoft Word 文档中提取文本数据。它支持现代的 .docx 格式和旧的 .doc 格式。根据文件类型,需要额外的依赖项。

设置

要使用 DocxLoader,您需要 @langchain/community 集成以及 mammothword-extractor
  • mammoth:用于处理 .docx 文件。
  • word-extractor:用于处理 .doc 文件。

安装

对于 .docx 文件

npm
npm install @langchain/community @langchain/core mammoth

对于 .doc 文件

npm
npm install @langchain/community @langchain/core word-extractor

用法

加载 .docx 文件

对于 .docx 文件,在初始化加载器时无需明确指定任何参数
import { DocxLoader } from "@langchain/community/document_loaders/fs/docx";

const loader = new DocxLoader(
  "src/document_loaders/tests/example_data/attention.docx"
);

const docs = await loader.load();

加载 .doc 文件

对于 .doc 文件,在初始化加载器时必须明确将 type 指定为 doc
import { DocxLoader } from "@langchain/community/document_loaders/fs/docx";

const loader = new DocxLoader(
  "src/document_loaders/tests/example_data/attention.doc",
  {
    type: "doc",
  }
);

const docs = await loader.load();

以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.