HuggingFacePipeline 类在本地运行。 Hugging Face 模型中心托管着超过 12 万个模型、2 万个数据集和 5 万个演示应用(Spaces),所有这些都是开源且公开可用的,人们可以在一个在线平台上轻松协作并共同构建机器学习。 这些模型可以通过此本地管道包装器或通过 HuggingFaceHub 类调用其托管推理端点来从 LangChain 调用。 要使用,您应该安装 transformers Python 软件包,以及 pytorch。您还可以安装 xformer 以实现更节省内存的注意力实现。模型加载
可以通过使用from_model_id 方法指定模型参数来加载模型。
transformers 管道来加载
创建链
将模型加载到内存后,您可以将其与提示组合以形成一个链。skip_prompt=True 绑定到 LLM。
GPU 推理
在具有 GPU 的机器上运行时,您可以指定device=n 参数将模型放在指定的设备上。默认为 -1 表示 CPU 推理。 如果您有多个 GPU 和/或模型对于单个 GPU 来说太大,您可以指定 device_map="auto",这需要并使用 Accelerate 库来自动确定如何加载模型权重。 注意:device 和 device_map 不应同时指定,否则可能导致意外行为。批量 GPU 推理
如果在具有 GPU 的设备上运行,您还可以以批处理模式在 GPU 上运行推理。使用 OpenVINO 后端进行推理
要使用 OpenVINO 部署模型,您可以指定backend="openvino" 参数以触发 OpenVINO 作为后端推理框架。 如果您有 Intel GPU,您可以指定 model_kwargs={"device": "GPU"} 以在其上运行推理。使用本地 OpenVINO 模型进行推理
可以通过 CLI 将模型导出为 OpenVINO IR 格式,并从本地文件夹加载模型。--weight-format 应用 8 或 4 位权重量化以减少推理延迟和模型占用空间
ov_config 启用,如下所示
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。