Hugging Face Hub 是一个平台,拥有超过 12 万个模型、2 万个数据集和 5 万个演示应用(Spaces),所有这些都是开源且公开的,在一个在线平台上,人们可以轻松协作并共同构建机器学习。
Hugging Face Hub 还提供各种端点来构建机器学习应用。此示例展示了如何连接到不同的端点类型。 特别是,文本生成推理由 Text Generation Inference 提供支持:一个定制构建的 Rust、Python 和 gRPC 服务器,用于超高速文本生成推理。安装和设置
要使用它,您应该安装huggingface_hub Python 包。
准备示例
示例
以下是如何访问无服务器 推理提供商 API 的HuggingFaceEndpoint 集成的示例。
专用端点
免费的无服务器 API 让您可以立即实现解决方案和迭代,但对于高负载用例可能会受到速率限制,因为负载与其他请求共享。 对于企业工作负载,最好使用 Inference Endpoints - Dedicated。这提供了对完全托管基础设施的访问,该基础设施提供更大的灵活性和速度。这些资源提供持续支持和正常运行时间保证,以及 AutoScaling 等选项。流式处理
HuggingFaceEndpoint 类可用于承载 LLM 的本地 HuggingFace TGI 实例。有关各种硬件(GPU、TPU、Gaudi...)支持的详细信息,请查看 TGI 存储库。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。