Hyperbrowser 网页抓取工具

Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话，并为任何网页抓取需求提供易于使用的解决方案，例如抓取单个页面或爬取整个网站。主要特点：

即时可扩展性 - 在几秒钟内启动数百个浏览器会话，无需基础设施烦恼
简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
强大的 API - 易于使用的 API，可抓取/爬取任何网站，以及更多功能
绕过反机器人措施 - 内置隐身模式、广告拦截、自动 CAPTCHA 解决和轮换代理

本指南提供了 Hyperbrowser 网页工具的快速入门概述。有关 Hyperbrowser 的更多信息，请访问 Hyperbrowser 网站；如果您想查看文档，可以访问 Hyperbrowser 文档。

主要功能

抓取

Hyperbrowser 提供强大的抓取功能，可让您从任何网页提取数据。抓取工具可以将网页内容转换为 Markdown 或 HTML 等结构化格式，从而轻松处理和分析数据。

爬取

爬取功能使您能够自动浏览网站的多个页面。您可以设置页面限制等参数来控制爬取器探索网站的程度，并从其访问的每个页面收集数据。

提取

Hyperbrowser 的提取功能使用 AI 根据您定义的模式从网页中提取特定信息。这使您能够将非结构化的网页内容转换为符合您精确要求的结构化数据。

概览

集成详情

工具	包	本地	可序列化	JS 支持
爬取工具	langchain-hyperbrowser	❌	❌	❌
抓取工具	langchain-hyperbrowser	❌	❌	❌
提取工具	langchain-hyperbrowser	❌	❌	❌

设置

要访问 Hyperbrowser 网页工具，您需要安装 langchain-hyperbrowser 集成包，并创建一个 Hyperbrowser 帐户并获取 API 密钥。

凭据

前往 Hyperbrowser 注册并生成 API 密钥。完成此操作后，设置 HYPERBROWSER_API_KEY 环境变量

export HYPERBROWSER_API_KEY=<your-api-key>

安装

安装 langchain-hyperbrowser。

pip install -qU langchain-hyperbrowser

实例化

爬取工具

HyperbrowserCrawlTool 是一个功能强大的工具，可以从给定的 URL 开始爬取整个网站。它支持可配置的页面限制和抓取选项。

from langchain_hyperbrowser import HyperbrowserCrawlTool
tool = HyperbrowserCrawlTool()

抓取工具

HyperbrowserScrapeTool 是一个可以从网页抓取内容的工具。它支持 Markdown 和 HTML 输出格式，以及元数据提取。

from langchain_hyperbrowser import HyperbrowserScrapeTool
tool = HyperbrowserScrapeTool()

提取工具

HyperbrowserExtractTool 是一个功能强大的工具，它使用 AI 从网页中提取结构化数据。它可以根据预定义的模式提取信息。

from langchain_hyperbrowser import HyperbrowserExtractTool
tool = HyperbrowserExtractTool()

调用

基本用法

爬取工具

from langchain_hyperbrowser import HyperbrowserCrawlTool

result = HyperbrowserCrawlTool().invoke(
    {
        "url": "https://example.com",
        "max_pages": 2,
        "scrape_options": {"formats": ["markdown"]},
    }
)
print(result)

{'data': [CrawledPage(metadata={'url': 'https://www.example.com/', 'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, html=None, markdown='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)', links=None, screenshot=None, url='https://example.com', status='completed', error=None)], 'error': None}

抓取工具

from langchain_hyperbrowser import HyperbrowserScrapeTool

result = HyperbrowserScrapeTool().invoke(
    {"url": "https://example.com", "scrape_options": {"formats": ["markdown"]}}
)
print(result)

{'data': ScrapeJobData(metadata={'url': 'https://www.example.com/', 'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, html=None, markdown='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)', links=None, screenshot=None), 'error': None}

提取工具

from langchain_hyperbrowser import HyperbrowserExtractTool
from pydantic import BaseModel


class SimpleExtractionModel(BaseModel):
    title: str


result = HyperbrowserExtractTool().invoke(
    {
        "url": "https://example.com",
        "schema": SimpleExtractionModel,
    }
)
print(result)

{'data': {'title': 'Example Domain'}, 'error': None}

使用自定义选项

带自定义选项的爬取工具

result = HyperbrowserCrawlTool().run(
    {
        "url": "https://example.com",
        "max_pages": 2,
        "scrape_options": {
            "formats": ["markdown", "html"],
        },
        "session_options": {"use_proxy": True, "solve_captchas": True},
    }
)
print(result)

{'data': [CrawledPage(metadata={'url': 'https://www.example.com/', 'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, html=None, markdown='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)', links=None, screenshot=None, url='https://example.com', status='completed', error=None)], 'error': None}

带自定义选项的抓取工具

result = HyperbrowserScrapeTool().run(
    {
        "url": "https://example.com",
        "scrape_options": {
            "formats": ["markdown", "html"],
        },
        "session_options": {"use_proxy": True, "solve_captchas": True},
    }
)
print(result)

{'data': ScrapeJobData(metadata={'url': 'https://www.example.com/', 'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, html='<html><head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8">\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n        \n</head>\n\n<body>\n<div>\n    <h1>Example Domain</h1>\n    <p>This domain is for use in illustrative examples in documents. You may use this\n    domain in literature without prior coordination or asking for permission.</p>\n    <p><a href="https://www.iana.org/domains/example">More information...</a></p>\n</div>\n\n\n</body></html>', markdown='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)', links=None, screenshot=None), 'error': None}

带自定义模式的提取工具

from typing import List

from pydantic import BaseModel


class ProductSchema(BaseModel):
    title: str
    price: float


class ProductsSchema(BaseModel):
    products: List[ProductSchema]


result = HyperbrowserExtractTool().run(
    {
        "url": "https://dummyjson.com/products?limit=10",
        "schema": ProductsSchema,
        "session_options": {"session_options": {"use_proxy": True}},
    }
)
print(result)

{'data': {'products': [{'price': 9.99, 'title': 'Essence Mascara Lash Princess'}, {'price': 19.99, 'title': 'Eyeshadow Palette with Mirror'}, {'price': 14.99, 'title': 'Powder Canister'}, {'price': 12.99, 'title': 'Red Lipstick'}, {'price': 8.99, 'title': 'Red Nail Polish'}, {'price': 49.99, 'title': 'Calvin Klein CK One'}, {'price': 129.99, 'title': 'Chanel Coco Noir Eau De'}, {'price': 89.99, 'title': "Dior J'adore"}, {'price': 69.99, 'title': 'Dolce Shine Eau de'}, {'price': 79.99, 'title': 'Gucci Bloom Eau de'}]}, 'error': None}

异步用法

所有工具都支持异步使用

from typing import List

from langchain_hyperbrowser import (
    HyperbrowserCrawlTool,
    HyperbrowserExtractTool,
    HyperbrowserScrapeTool,
)
from pydantic import BaseModel


class ExtractionSchema(BaseModel):
    popular_library_name: List[str]


async def web_operations():
    # Crawl
    crawl_tool = HyperbrowserCrawlTool()
    crawl_result = await crawl_tool.arun(
        {
            "url": "https://example.com",
            "max_pages": 5,
            "scrape_options": {"formats": ["markdown"]},
        }
    )

    # Scrape
    scrape_tool = HyperbrowserScrapeTool()
    scrape_result = await scrape_tool.arun(
        {"url": "https://example.com", "scrape_options": {"formats": ["markdown"]}}
    )

    # Extract
    extract_tool = HyperbrowserExtractTool()
    extract_result = await extract_tool.arun(
        {
            "url": "https://npmjs.net.cn",
            "schema": ExtractionSchema,
        }
    )

    return crawl_result, scrape_result, extract_result


results = await web_operations()
print(results)

---------------------------------------------------------------------------

NameError                                 Traceback (most recent call last)

Cell In[6], line 10
from langchain_hyperbrowser import (
   HyperbrowserCrawlTool,
   HyperbrowserExtractTool,
   HyperbrowserScrapeTool,
)
from pydantic import BaseModel
---> 10 class ExtractionSchema(BaseModel):
   popular_library_name: List[str]
async def web_operations():
   # Crawl

Cell In[6], line 11, in ExtractionSchema()
     10 class ExtractionSchema(BaseModel):
---> 11     popular_library_name: List[str]

NameError: name 'List' is not defined

在代理中使用

以下是如何在代理中使用任何网页工具

from langchain_hyperbrowser import HyperbrowserCrawlTool
from langchain_openai import ChatOpenAI
from langchain.agents import create_agent


# Initialize the crawl tool
crawl_tool = HyperbrowserCrawlTool()

# Create the agent with the crawl tool
model = ChatOpenAI(temperature=0)

agent = create_agent(model, [crawl_tool])
user_input = "Crawl https://example.com and get content from up to 5 pages"
for step in agent.stream(
    {"messages": user_input},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

================================ Human Message =================================

Crawl https://example.com and get content from up to 5 pages
================================== Ai Message ==================================
Tool Calls:
  hyperbrowser_crawl_data (call_G2ofdHOqjdnJUZu4hhbuga58)
 Call ID: call_G2ofdHOqjdnJUZu4hhbuga58
  Args:
    url: https://example.com
    max_pages: 5
    scrape_options: {'formats': ['markdown']}
================================= Tool Message =================================
Name: hyperbrowser_crawl_data

{'data': [CrawledPage(metadata={'url': 'https://www.example.com/', 'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, html=None, markdown='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)', links=None, screenshot=None, url='https://example.com', status='completed', error=None)], 'error': None}
================================== Ai Message ==================================

I have crawled the website [https://example.com](https://example.com) and retrieved content from the first page. Here is the content in markdown format:

\`\`\`
Example Domain

# Example Domain

This domain is for use in illustrative examples in documents. You may use this
domain in literature without prior coordination or asking for permission.

[More information...](https://www.iana.org/domains/example)
\`\`\`

If you would like to crawl more pages or need additional information, please let me know!

配置选项

通用选项

所有工具都支持这些基本配置选项

url: 要处理的 URL
session_options: 浏览器会话配置
- use_proxy: 是否使用代理
- solve_captchas: 是否自动解决 CAPTCHA
- accept_cookies: 是否接受 Cookie

特定工具选项

爬取工具

max_pages: 要爬取的最大页面数
scrape_options: 抓取每个页面的选项
- formats: 输出格式列表 (markdown, html)

抓取工具

scrape_options: 抓取页面的选项
- formats: 输出格式列表 (markdown, html)

提取工具

schema: 定义要提取结构的 Pydantic 模型
extraction_prompt: 用于提取的自然语言提示

有关更多详细信息，请参阅相应的 API 参考

API 参考

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

热门提供商

按组件划分的集成

主要功能

抓取

爬取

提取

概览

集成详情

设置

凭据

安装

实例化

爬取工具

抓取工具

提取工具

调用

基本用法

爬取工具

抓取工具

提取工具

使用自定义选项

带自定义选项的爬取工具

带自定义选项的抓取工具

带自定义模式的提取工具

异步用法

在代理中使用

配置选项

通用选项

特定工具选项

爬取工具

抓取工具

提取工具

API 参考

热门提供商

按组件划分的集成

​主要功能

​抓取

​爬取

​提取

​概览

​集成详情

​设置

​凭据

​安装

​实例化

​爬取工具

​抓取工具

​提取工具

​调用

​基本用法

​爬取工具

​抓取工具

​提取工具

​使用自定义选项

​带自定义选项的爬取工具

​带自定义选项的抓取工具

​带自定义模式的提取工具

​异步用法

​在代理中使用

​配置选项

​通用选项

​特定工具选项

​爬取工具

​抓取工具

​提取工具

​API 参考

主要功能

抓取

爬取

提取

概览

集成详情

设置

凭据

安装

实例化

爬取工具

抓取工具

提取工具

调用

基本用法

爬取工具

抓取工具

提取工具

使用自定义选项

带自定义选项的爬取工具

带自定义选项的抓取工具

带自定义模式的提取工具

异步用法

在代理中使用

配置选项

通用选项

特定工具选项

爬取工具

抓取工具

提取工具

API 参考