跳到主要内容
Dedoc 是一个开源库/服务,可从各种格式的文件中提取文本、表格、附件和文档结构(例如,标题、列表项等)。
Dedoc 支持 DOCXXLSXPPTXEMLHTMLPDF、图像等。支持的完整格式列表可在此处找到。

安装和设置

Dedoc 库

您可以使用 pip 安装 Dedoc。在这种情况下,您需要安装依赖项,请前往此处获取更多信息。
pip install dedoc

Dedoc API

如果您打算使用 Dedoc API,则无需安装 dedoc 库。在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(更多详细信息请参阅文档
docker pull dedocproject/dedoc
docker run -p 1231:1231

文档加载器

  • 对于处理任何格式的文件(由 Dedoc 支持),您可以使用 DedocFileLoader
    from langchain_community.document_loaders import DedocFileLoader
    
  • 对于处理 PDF 文件(无论是否包含文本层),您可以使用 DedocPDFLoader
    from langchain_community.document_loaders import DedocPDFLoader
    
  • 对于无需安装库即可处理任何格式的文件,您可以使用 Dedoc APIDedocAPIFileLoader
    from langchain_community.document_loaders import DedocAPIFileLoader
    
请参阅使用示例以获取更多详细信息。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.