HuggingFacePipeline 类在本地运行。要使用 OpenVINO 部署模型,您可以指定 backend="openvino" 参数来触发 OpenVINO 作为后端推理框架。 要使用,您应该安装带有 OpenVINO Accelerator Python 包的 optimum-intel。模型加载
可以通过使用from_model_id 方法指定模型参数来加载模型。 如果您有 Intel GPU,您可以指定 model_kwargs={"device": "GPU"} 以在其上运行推理。optimum-intel 管道来加载
创建链
将模型加载到内存后,您可以将其与提示组合以形成一个链。skip_prompt=True 绑定到 LLM。
使用本地 OpenVINO 模型进行推理
可以通过 CLI 将您的模型导出为 OpenVINO IR 格式,并从本地文件夹加载模型。--weight-format 减少推理延迟和模型占用空间
ov_config 启用,如下所示
流式处理
您可以使用stream 方法获取 LLM 输出的流式传输,
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。