跳到主要内容
兼容性:仅适用于 Node.js。
本笔记本提供了 UnstructuredLoader 文档加载器 的快速入门概览。有关所有 UnstructuredLoader 功能和配置的详细文档,请参阅 API 参考

概览

集成详情

类别兼容性本地PY 支持
UnstructuredLoader@langchain/community仅限 Node.js

设置

要访问 UnstructuredLoader 文档加载器,您需要安装 @langchain/community 集成包,并创建 Unstructured 帐户并获取 API 密钥。

本地

您可以使用 Docker 在本地计算机上运行 Unstructured。为此,您需要安装 Docker。您可以在此处找到安装 Docker 的说明。
docker run -p 8000:8000 -d --rm --name unstructured-api downloads.unstructured.io/unstructured-io/unstructured-api:latest --port 8000 --host 0.0.0.0

凭据

访问 unstructured.io 注册 Unstructured 并生成 API 密钥。完成后,设置 UNSTRUCTURED_API_KEY 环境变量。
export UNSTRUCTURED_API_KEY="your-api-key"

安装

LangChain UnstructuredLoader 集成存在于 @langchain/community 包中
npm install @langchain/community @langchain/core

实例化

现在我们可以实例化模型对象并加载文档
import { UnstructuredLoader } from "@langchain/community/document_loaders/fs/unstructured"

const loader = new UnstructuredLoader("../../../../../../examples/src/document_loaders/example_data/notion.mdx")

加载

const docs = await loader.load()
docs[0]
Document {
  pageContent: '# Testing the notion markdownloader',
  metadata: {
    filename: 'notion.mdx',
    languages: [ 'eng' ],
    filetype: 'text/plain',
    category: 'NarrativeText'
  },
  id: undefined
}
console.log(docs[0].metadata)
{
  filename: 'notion.mdx',
  languages: [ 'eng' ],
  filetype: 'text/plain',
  category: 'NarrativeText'
}

目录

您还可以使用 UnstructuredDirectoryLoader 加载目录中的所有文件,它继承自 DirectoryLoader
import { UnstructuredDirectoryLoader } from "@langchain/community/document_loaders/fs/unstructured";

const directoryLoader = new UnstructuredDirectoryLoader(
  "../../../../../../examples/src/document_loaders/example_data/",
  {}
);
const directoryDocs = await directoryLoader.load();
console.log("directoryDocs.length: ", directoryDocs.length);
console.log(directoryDocs[0])

Unknown file type: Star_Wars_The_Clone_Wars_S06E07_Crisis_at_the_Heart.srt
Unknown file type: test.mp3
directoryDocs.length:  247
Document {
  pageContent: 'Bitcoin: A Peer-to-Peer Electronic Cash System',
  metadata: {
    filetype: 'application/pdf',
    languages: [ 'eng' ],
    page_number: 1,
    filename: 'bitcoin.pdf',
    category: 'Title'
  },
  id: undefined
}

API 参考

有关所有 UnstructuredLoader 功能和配置的详细文档,请参阅 API 参考
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.