Llama2Chat 封装器增强 Llama-2 LLMs,以支持 Llama-2 聊天提示格式。LangChain 中的几个 LLM 实现可以作为 Llama-2 聊天模型的接口。这些包括 ChatHuggingFace、LlamaCpp、GPT4All 等等。 Llama2Chat 是一个通用的封装器,实现了 BaseChatModel,因此可以在应用程序中用作 聊天模型。Llama2Chat 将消息列表转换为 所需的聊天提示格式,并将格式化后的提示作为 str 转发给封装的 LLM。prompt_template
通过 HuggingFaceTextGenInference LLM 与 Llama-2 聊天
HuggingFaceTextGenInference LLM 封装了对 文本生成推理 服务器的访问。在以下示例中,推理服务器提供了一个 meta-llama/Llama-2-13b-chat-hf 模型。它可以在本地启动,命令如下:
--num_shard 值调整为可用的 GPU 数量。HF_API_TOKEN 环境变量保存 Hugging Face API 令牌。
HuggingFaceTextGenInference 实例,并将其封装到 Llama2Chat 中。
LLMChain 中将聊天 model 与 prompt_template 和会话 memory 一起使用了。
通过 LlamaCPP LLM 与 Llama-2 聊天
要使用 LlamaCPP LMM 使用 Llama-2 聊天模型,请按照这些安装说明安装 llama-cpp-python 库。以下示例使用存储在本地 ~/Models/llama-2-7b-chat.Q4_0.gguf 的量化 llama-2-7b-chat.Q4_0.gguf 模型。 创建 LlamaCpp 实例后,llm 再次被封装到 Llama2Chat 中以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。