兼容性仅在 Node.js 上可用。
设置
您需要安装 node-llama-cpp 模块的主要版本3 才能与本地模型通信。
npm
有关安装 LangChain 软件包的一般说明,请参阅此部分。
npm
node-llama-cpp 针对 macOS 平台进行了优化,并支持 Apple M 系列处理器的 Metal GPU。如果您需要关闭此功能或需要 CUDA 架构支持,请参阅 node-llama-cpp 的文档。 LangChain.js 贡献者注意事项:如果您想运行与此模块相关的测试,您需要将本地模型的路径放入环境变量 LLAMA_PATH 中。Llama3 安装指南
在您的机器上运行本地 Llama3 模型是先决条件,因此这是一个快速指南,介绍如何获取和构建 Llama 3.1-8B(最小的模型),然后对其进行量化,以便它可以在笔记本电脑上舒适地运行。为此,您的机器上需要安装python3(建议使用 3.11),以及 gcc 和 make,以便可以构建 llama.cpp。
获取 Llama3 模型
要获取 Llama3 的副本,您需要访问 Meta AI 并请求访问他们的模型。一旦 Meta AI 授予您访问权限,您将收到一封包含唯一 URL 的电子邮件,用于访问文件,这将在接下来的步骤中需要。现在创建一个工作目录,例如llama-models 存储库,它可以在这里找到。在该存储库中,有下载您选择的模型的说明,您应该使用在电子邮件中收到的唯一 URL。本教程的其余部分假设您已下载 Llama3.1-8B,但此后的任何模型都应该有效。下载模型后,请务必保存模型下载路径,这将在以后使用。
转换和量化模型
在此步骤中,我们需要使用llama.cpp,因此我们需要下载该存储库。
llama.cpp 工具并设置我们的 python 环境。在这些步骤中,假设您的 python 安装可以使用 python3 运行,并且虚拟环境可以命名为 llama3,请根据您自己的情况进行调整。
(llama3) 前缀出现在您的命令提示符前,以告知您这是活动环境。注意:如果您需要回来构建另一个模型或重新量化模型,请不要忘记再次激活环境;此外,如果您更新 llama.cpp,您将需要重新构建工具并可能安装新的或更新的依赖项!现在我们有了一个活动的 python 环境,我们需要安装 python 依赖项。
llama.cpp 在本地使用。需要先转换为 Hugging Face 模型,然后再转换为 GGUF 模型。首先,我们需要使用脚本 convert_llama_weights_to_hf.py 找到路径。将此脚本复制并粘贴到您的当前工作目录中。请注意,使用该脚本可能需要您通过 pip 安装额外的依赖项,请根据需要进行安装。然后,我们需要转换模型,在转换之前,让我们创建目录来存储我们的 Hugging Face 转换和最终模型。