跳到主要内容
维基百科是一部多语言的免费在线百科全书,由一个志愿者社区(被称为维基人)通过开放协作并使用名为 MediaWiki 的维基编辑系统编写和维护。维基百科是历史上规模最大、阅读量最大的参考作品。
本 Notebook 展示了如何从 wikipedia.org 检索维基页面,并将其转换为下游使用的 Document 格式。

集成详情

设置

要启用单个工具的自动化跟踪,请设置您的 LangSmith API 密钥
os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
os.environ["LANGSMITH_TRACING"] = "true"

安装

此集成位于 langchain-community 包中。我们还需要安装 wikipedia Python 包本身。
pip install -qU langchain-community wikipedia

实例化

现在我们可以实例化我们的检索器: WikipediaRetriever 参数包括:
  • 可选 lang:默认值为“en”。使用它来在维基百科的特定语言部分进行搜索。
  • 可选 load_max_docs:默认值为 100。使用它来限制下载文档的数量。下载全部 100 个文档需要时间,因此在实验中使用较小的数字。目前硬性限制为 300。
  • 可选 load_all_available_meta:默认值为 False。默认情况下,只下载最重要的字段:Published(文档发布/最后更新日期)、titleSummary。如果设置为 True,则也会下载其他字段。
get_relevant_documents() 有一个参数 query:用于在维基百科中查找文档的自由文本。
from langchain_community.retrievers import WikipediaRetriever

retriever = WikipediaRetriever()

用法

docs = retriever.invoke("TOKYO GHOUL")
print(docs[0].page_content[:400])
Tokyo Ghoul (Japanese: 東京喰種(トーキョーグール), Hepburn: Tōkyō Gūru) is a Japanese dark fantasy manga series written and illustrated by Sui Ishida. It was serialized in Shueisha's seinen manga magazine Weekly Young Jump from September 2011 to September 2014, with its chapters collected in 14 tankōbon volumes. The story is set in an alternate version of Tokyo where humans coexist with ghouls, beings who loo

API 参考

有关所有 WikipediaRetriever 功能和配置的详细文档,请参阅 API 参考
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.