跳到主要内容
Hugging Face Hub 是一个平台,拥有超过 12 万个模型、2 万个数据集和 5 万个演示应用(Spaces),所有这些都是开源且公开的,在一个在线平台上,人们可以轻松协作并共同构建机器学习。
Hugging Face Hub 还提供各种端点来构建机器学习应用。此示例展示了如何连接到不同的端点类型。 特别是,文本生成推理由 Text Generation Inference 提供支持:一个定制构建的 Rust、Python 和 gRPC 服务器,用于超高速文本生成推理。
from langchain_huggingface import HuggingFaceEndpoint

安装和设置

要使用它,您应该安装 huggingface_hub Python
pip install -qU huggingface_hub
# get a token: https://hugging-face.cn/docs/api-inference/quicktour#get-your-api-token

from getpass import getpass

HUGGINGFACEHUB_API_TOKEN = getpass()
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACEHUB_API_TOKEN

准备示例

from langchain_huggingface import HuggingFaceEndpoint
from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate
question = "Who won the FIFA World Cup in the year 1994? "

template = """Question: {question}

Answer: Let's think step by step."""

prompt = PromptTemplate.from_template(template)

示例

以下是如何访问无服务器 推理提供商 API 的 HuggingFaceEndpoint 集成的示例。
repo_id = "deepseek-ai/DeepSeek-R1-0528"

llm = HuggingFaceEndpoint(
    repo_id=repo_id,
    max_length=128,
    temperature=0.5,
    huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN,
    provider="auto",  # set your provider here hf.co/settings/inference-providers
    # provider="hyperbolic",
    # provider="nebius",
    # provider="together",
)
llm_chain = prompt | llm
print(llm_chain.invoke({"question": question}))

专用端点

免费的无服务器 API 让您可以立即实现解决方案和迭代,但对于高负载用例可能会受到速率限制,因为负载与其他请求共享。 对于企业工作负载,最好使用 Inference Endpoints - Dedicated。这提供了对完全托管基础设施的访问,该基础设施提供更大的灵活性和速度。这些资源提供持续支持和正常运行时间保证,以及 AutoScaling 等选项。
# Set the url to your Inference Endpoint below
your_endpoint_url = "https://fayjubiy2xqn36z0.us-east-1.aws.endpoints.huggingface.cloud"
llm = HuggingFaceEndpoint(
    endpoint_url=f"{your_endpoint_url}",
    max_new_tokens=512,
    top_k=10,
    top_p=0.95,
    typical_p=0.95,
    temperature=0.01,
    repetition_penalty=1.03,
)
llm("What did foo say about bar?")

流式处理

from langchain_core.callbacks import StreamingStdOutCallbackHandler
from langchain_huggingface import HuggingFaceEndpoint

llm = HuggingFaceEndpoint(
    endpoint_url=f"{your_endpoint_url}",
    max_new_tokens=512,
    top_k=10,
    top_p=0.95,
    typical_p=0.95,
    temperature=0.01,
    repetition_penalty=1.03,
    streaming=True,
)
llm("What did foo say about bar?", callbacks=[StreamingStdOutCallbackHandler()])
此相同的 HuggingFaceEndpoint 类可用于承载 LLM 的本地 HuggingFace TGI 实例。有关各种硬件(GPU、TPU、Gaudi...)支持的详细信息,请查看 TGI 存储库
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.