Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 包(包括解析格式不正确的标记,即未闭合的标签,因此得名“标签汤”)。它为解析后的页面创建解析树,可用于从 HTML 中提取数据,[3] 这对于网络爬取非常有用。
Beautiful Soup 提供对 HTML 内容的精细控制,支持特定标签的提取、删除和内容清理。 它适用于需要根据自身需求提取特定信息和清理 HTML 内容的场景。 例如,我们可以从 HTML 内容中抓取 <p>、<li>、<div> 和 <a> 标签内的文本内容:-
<p>:段落标签。它在 HTML 中定义一个段落,用于将相关的句子和/或短语组合在一起。 -
<li>:列表项标签。它用于有序列表 (<ol>) 和无序列表 (<ul>) 中,定义列表中的单个项目。 -
<div>:分区标签。它是一个块级元素,用于将其他内联或块级元素组合在一起。 -
<a>:锚标签。它用于定义超链接。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。