维基百科是一部多语言的免费在线百科全书,由一个志愿者社区(被称为维基人)通过开放协作并使用名为 MediaWiki 的维基编辑系统编写和维护。维基百科是历史上规模最大、阅读量最大的参考作品。
本 Notebook 展示了如何从 wikipedia.org 检索维基页面,并将其转换为下游使用的 Document 格式。
集成详情
设置
要启用单个工具的自动化跟踪,请设置您的 LangSmith API 密钥安装
此集成位于langchain-community 包中。我们还需要安装 wikipedia Python 包本身。
实例化
现在我们可以实例化我们的检索器:WikipediaRetriever 参数包括:- 可选
lang:默认值为“en”。使用它来在维基百科的特定语言部分进行搜索。 - 可选
load_max_docs:默认值为 100。使用它来限制下载文档的数量。下载全部 100 个文档需要时间,因此在实验中使用较小的数字。目前硬性限制为 300。 - 可选
load_all_available_meta:默认值为 False。默认情况下,只下载最重要的字段:Published(文档发布/最后更新日期)、title、Summary。如果设置为 True,则也会下载其他字段。
get_relevant_documents() 有一个参数 query:用于在维基百科中查找文档的自由文本。
用法
API 参考
有关所有WikipediaRetriever 功能和配置的详细文档,请参阅 API 参考。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。