Spider

Spider 是最快的爬虫。它能将任何网站转换为纯 HTML、Markdown、元数据或文本，同时允许您使用 AI 进行自定义操作来爬取。

概览

Spider 允许您使用高性能代理来防止检测、缓存 AI 操作、用于爬取状态的 webhook、计划爬取等…… 本指南展示了如何使用 Spider 爬取/抓取网站，并使用 LangChain 中的 SpiderLoader 加载 LLM 就绪的文档。

设置

在 spider.cloud 获取您的 Spider API 密钥。

用法

以下是使用 SpiderLoader 的示例： Spider 提供两种抓取模式：scrape 和 crawl。Scrape 只获取所提供 URL 的内容，而 crawl 则获取所提供 URL 的内容并深入爬取子页面。

import { SpiderLoader } from "@langchain/community/document_loaders/web/spider";

const loader = new SpiderLoader({
  url: "https://spider.cloud", // The URL to scrape
  apiKey: process.env.SPIDER_API_KEY, // Optional, defaults to `SPIDER_API_KEY` in your env.
  mode: "scrape", // The mode to run the crawler in. Can be "scrape" for single urls or "crawl" for deeper scraping following subpages
  // params: {
  //   // optional parameters based on Spider API docs
  //   // For API documentation, visit https://spider.cloud/docs/api
  // },
});

const docs = await loader.load();

附加参数

有关所有可用 params 的信息，请参阅 Spider 文档。

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

热门提供商

通用集成

RAG 集成

概览

设置

用法

附加参数

热门提供商

通用集成

RAG 集成

​概览

​设置

​用法

​附加参数

概览

设置

用法

附加参数