- 即时可扩展性 - 在几秒钟内启动数百个浏览器会话,无需基础设施烦恼
- 简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
- 强大的 API - 易于使用的 API,可抓取/爬取任何网站,以及更多功能
- 绕过反机器人措施 - 内置隐身模式、广告拦截、自动 CAPTCHA 解决和轮换代理
主要功能
抓取
Hyperbrowser 提供强大的抓取功能,可让您从任何网页提取数据。抓取工具可以将网页内容转换为 Markdown 或 HTML 等结构化格式,从而轻松处理和分析数据。爬取
爬取功能使您能够自动浏览网站的多个页面。您可以设置页面限制等参数来控制爬取器探索网站的程度,并从其访问的每个页面收集数据。提取
Hyperbrowser 的提取功能使用 AI 根据您定义的模式从网页中提取特定信息。这使您能够将非结构化的网页内容转换为符合您精确要求的结构化数据。概览
集成详情
| 工具 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| 爬取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| 抓取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| 提取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
设置
要访问 Hyperbrowser 网页工具,您需要安装langchain-hyperbrowser 集成包,并创建一个 Hyperbrowser 帐户并获取 API 密钥。
凭据
前往 Hyperbrowser 注册并生成 API 密钥。完成此操作后,设置 HYPERBROWSER_API_KEY 环境变量安装
安装 langchain-hyperbrowser。实例化
爬取工具
HyperbrowserCrawlTool 是一个功能强大的工具,可以从给定的 URL 开始爬取整个网站。它支持可配置的页面限制和抓取选项。
抓取工具
HyperbrowserScrapeTool 是一个可以从网页抓取内容的工具。它支持 Markdown 和 HTML 输出格式,以及元数据提取。
提取工具
HyperbrowserExtractTool 是一个功能强大的工具,它使用 AI 从网页中提取结构化数据。它可以根据预定义的模式提取信息。
调用
基本用法
爬取工具
抓取工具
提取工具
使用自定义选项
带自定义选项的爬取工具
带自定义选项的抓取工具
带自定义模式的提取工具
异步用法
所有工具都支持异步使用在代理中使用
以下是如何在代理中使用任何网页工具配置选项
通用选项
所有工具都支持这些基本配置选项url: 要处理的 URLsession_options: 浏览器会话配置use_proxy: 是否使用代理solve_captchas: 是否自动解决 CAPTCHAaccept_cookies: 是否接受 Cookie
特定工具选项
爬取工具
max_pages: 要爬取的最大页面数scrape_options: 抓取每个页面的选项formats: 输出格式列表 (markdown, html)
抓取工具
scrape_options: 抓取页面的选项formats: 输出格式列表 (markdown, html)
提取工具
schema: 定义要提取结构的 Pydantic 模型extraction_prompt: 用于提取的自然语言提示
API 参考
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。