跳到主要内容
本笔记本提供了一个快速概览,帮助您开始使用 UnDatasIO 文档加载器。UnDatasIO 能够高效加载和解析各种文档格式,包括 PDF、PNG、JPG、JPEG 和 JFIF,并具有文档惰性加载和原生异步支持等功能,所有这些都通过 UnDatasIO 的安全云 API 实现。这些功能使得处理后的数据可用于生成式 AI 工作流程,例如 RAG。 有关所有功能和配置的详细文档,请参阅官方 API 参考。

概览

加载器功能

来源文档延迟加载原生异步支持
UnDatasIOLoader

设置

凭据

UnDatasIO 需要一个 API 令牌。请在 undatas.io 生成一个免费令牌,并在下面的单元格中设置。
import getpass
import os

if "UNDATASIO_TOKEN" not in os.environ:
    os.environ["UNDATASIO_TOKEN"] = getpass.getpass(
        "Enter your UnDatasIO API token: "
    )

安装

常规安装

运行本笔记本的其余部分需要以下软件包。
# Install package, compatible with API partitioning
pip install langchain-undatasio

初始化

UnDatasIOLoader 支持通过 UnDatasIO 云 API 进行单文件上传和解析。
from langchain_undatasio import UnDatasIOLoader

loader = UnDatasIOLoader(
    token=os.environ["UNDATASIO_TOKEN"],
    file_path="demo.pdf"
)

加载

docs = loader.load()
docs[0]
Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)
print(docs[0].page_content[:300])
Growing a Tail: Increasing Output Diversity in Large Language Models

Authors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*

Affiliations:

1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.

2Faculty of Computer Science, Technion – I

延迟加载

UnDatasIOLoader 支持惰性加载以实现内存高效的迭代。
pages = []
for doc in loader.lazy_load():
    pages.append(doc)

pages[0]
Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)

另请参阅


以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.