- Google 搜索:能够全面提取所有结果类型的 Google SERP 数据。
- 支持选择本地化 Google 域名(例如,
google.com、google.ad)以检索特定区域的搜索结果。 - 支持分页以检索第一页之外的结果。
- 支持搜索结果筛选开关,以控制是否排除重复或相似内容。
- 支持选择本地化 Google 域名(例如,
- Google Trends:从 Google 检索关键词趋势数据,包括随时间变化的受欢迎程度、区域兴趣和相关搜索。
- 支持多关键词比较。
- 支持多种数据类型:
interest_over_time、interest_by_region、related_queries和related_topics。 - 允许按特定 Google 属性(网页、YouTube、新闻、购物)进行筛选,以进行特定来源的趋势分析。
- 专为现代、大量使用 JavaScript 的网站设计,允许动态内容提取。
- 全球高级代理支持,用于绕过地理限制并提高可靠性。
- 抓取:递归抓取网站及其链接页面以提取全站内容。
- 支持可配置的抓取深度和限定范围的 URL 定位。
- 提取:高精度地从单个网页提取内容。
- 支持“仅主要内容”提取,以排除广告、页脚和其他非必要元素。
- 允许批量抓取多个独立 URL。
概览
集成详情
工具特性
| 原生异步 | 返回工件 | 返回数据 |
|---|---|---|
| ✅ | ✅ | markdown, rawHtml, screenshot@fullPage, json, links, screenshot, html |
设置
该集成位于langchain-scrapeless 包中。!pip install langchain-scrapeless
凭据
您需要 Scrapeless API 密钥才能使用此工具。您可以将其设置为环境变量。实例化
ScrapelessCrawlerScrapeTool
ScrapelessCrawlerScrapeTool 允许您使用 Scrapeless 的 Crawler Scrape API 从一个或多个网站抓取内容。您可以提取主要内容、控制格式、标题、等待时间以及输出类型。 该工具接受以下参数:urls(必填,List[str]): 您想要抓取的一个或多个网站的 URL。formats(可选,List[str]): 定义抓取输出的格式。默认为['markdown']。选项包括'markdown''rawHtml''screenshot@fullPage''json''links''screenshot''html'
only_main_content(可选,bool): 是否只返回主要页面内容,不包括标题、导航、页脚等。默认为 True。include_tags(可选,List[str]): 要包含在输出中的 HTML 标签列表(例如,['h1', 'p'])。如果设置为 None,则不明确包含任何标签。exclude_tags(可选,List[str]): 要从输出中排除的 HTML 标签列表。如果设置为 None,则不明确排除任何标签。headers(可选,Dict[str, str]): 请求发送的自定义标头(例如,用于 cookie 或用户代理)。默认为 None。wait_for(可选,int): 抓取前等待的毫秒数。用于给页面充分加载的时间。默认为0。timeout(可选,int): 请求超时(毫秒)。默认为30000。
ScrapelessCrawlerCrawlTool
ScrapelessCrawlerCrawlTool 允许您使用 Scrapeless 的 Crawler Crawl API 从一个基本 URL 开始爬取网站。它支持 URL 的高级过滤、爬取深度控制、内容抓取选项、标题自定义等。 该工具接受以下参数:-
url(必填,str): 开始爬取的基本 URL。 -
limit(可选,int): 要爬取的最大页面数。默认为10000。 -
include_paths(可选,List[str]): 要包含在爬取中的 URL 路径名正则表达式模式。只有与这些模式匹配的 URL 才会被包含。例如,设置["blog/.*"]将只包含/blog/路径下的 URL。默认为 None。 -
exclude_paths(可选,List[str]): 要从爬取中排除的 URL 路径名正则表达式模式。例如,设置["blog/.*"]将排除/blog/路径下的 URL。默认为 None。 -
max_depth(可选,int): 相对于基本 URL 的最大爬取深度,通过 URL 路径中的斜杠数测量。默认为10。 -
max_discovery_depth(可选,int): 基于发现顺序的最大爬取深度。根页面和站点地图页面深度为0。例如,设置为1并忽略站点地图将只爬取输入的 URL 及其直接链接。默认为 None。 -
ignore_sitemap(可选,bool): 爬取时是否忽略网站站点地图。默认为 False。 -
ignore_query_params(可选,bool): 是否忽略查询参数差异以避免重新抓取相似的 URL。默认为 False。 -
deduplicate_similar_urls(可选,bool): 是否对相似的 URL 进行去重。默认为 True。 -
regex_on_full_url(可选,bool): 正则表达式匹配是否应用于完整的 URL 而不仅仅是路径。默认为 True。 -
allow_backward_links(可选,bool): 是否允许爬取 URL 层次结构之外的反向链接。默认为 False。 -
allow_external_links(可选,bool): 是否允许爬取外部网站的链接。默认为 False。 -
delay(可选,int): 页面抓取之间的延迟(秒),以遵守速率限制。默认为1。 -
formats(可选,List[str]): 抓取内容的格式。默认为 ["markdown"]。选项包括'markdown''rawHtml''screenshot@fullPage''json''links''screenshot''html'
-
only_main_content(可选,bool): 是否只返回主要内容,不包括标题、导航栏、页脚等。默认为 True。 -
include_tags(可选,List[str]): 要包含在输出中的 HTML 标签列表(例如,['h1', 'p'])。默认为 None(无明确包含过滤器)。 -
exclude_tags(可选,List[str]): 要从输出中排除的 HTML 标签列表。默认为 None(无明确排除过滤器)。 -
headers(可选,Dict[str, str]): 请求发送的自定义 HTTP 标头,例如 cookie 或用户代理字符串。默认为 None。 -
wait_for(可选,int): 抓取内容前等待的毫秒数,允许页面完全加载。默认为0。 -
timeout(可选,int): 请求超时(毫秒)。默认为30000。
调用
ScrapelessCrawlerCrawlTool
带参数使用
在代理中使用
ScrapelessCrawlerScrapeTool
带参数使用
带参数的高级用法
在代理中使用
API 参考
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。