Arxiv

arXiv 是一个开放获取的档案库，包含物理学、数学、计算机科学、量化生物学、量化金融、统计学、电气工程和系统科学以及经济学领域的200万篇学术文章。

本笔记本演示了如何从 Arxiv.org 检索科学文章，并将其转换为下游使用的 Document 格式。有关所有 ArxivRetriever 功能和配置的详细文档，请参阅 API 参考。

集成详情

设置

如果您想从单个查询中获得自动化跟踪，您还可以通过取消注释下方来设置您的 LangSmith API 密钥

os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
os.environ["LANGSMITH_TRACING"] = "true"

安装

此检索器位于 langchain-community 包中。我们还需要 arxiv 依赖项。

pip install -qU langchain-community arxiv

实例化

ArxivRetriever 参数包括：

可选 load_max_docs：默认值=100。用于限制下载文档的数量。下载所有 100 篇文档需要时间，因此在实验中请使用较小的数字。目前有 300 篇的硬性限制。
可选 load_all_available_meta：默认值=False。默认情况下，只下载最重要的字段：Published（文档发布/上次更新日期）、Title、Authors、Summary。如果为 True，则还会下载其他字段。
get_full_documents：布尔值，默认 False。确定是否获取文档的全文。

有关更多详细信息，请参阅 API 参考。

from langchain_community.retrievers import ArxivRetriever

retriever = ArxivRetriever(
    load_max_docs=2,
    get_ful_documents=True,
)

用法

ArxivRetriever 支持按文章标识符进行检索

docs = retriever.invoke("1605.08386")

docs[0].metadata  # meta-information of the Document

{'Entry ID': 'http://arxiv.org/abs/1605.08386v1',
 'Published': datetime.date(2016, 5, 26),
 'Title': 'Heat-bath random walks with Markov bases',
 'Authors': 'Caprice Stanley, Tobias Windisch'}

docs[0].page_content[:400]  # a content of the Document

'Graphs on lattice points are studied whose edges come from a finite set of\nallowed moves of arbitrary length. We show that the diameter of these graphs on\nfibers of a fixed integer matrix can be bounded from above by a constant. We\nthen study the mixing behaviour of heat-bath random walks on these graphs. We\nalso state explicit conditions on the set of moves so that the heat-bath random\nwalk, a ge'

ArxivRetriever 还支持基于自然语言文本的检索

docs = retriever.invoke("What is the ImageBind model?")

docs[0].metadata

{'Entry ID': 'http://arxiv.org/abs/2305.05665v2',
 'Published': datetime.date(2023, 5, 31),
 'Title': 'ImageBind: One Embedding Space To Bind Them All',
 'Authors': 'Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra'}

API 参考

有关所有 ArxivRetriever 功能和配置的详细文档，请参阅 API 参考。

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

热门提供商

按组件划分的集成

集成详情

设置

安装

实例化

用法

API 参考

热门提供商

按组件划分的集成

​集成详情

​设置

​安装

​实例化

​用法

​API 参考

集成详情

设置

安装

实例化

用法

API 参考