设置
- 下载您要使用的模型的 llamafile。您可以在 HuggingFace 上找到许多 llamafile 格式的模型。在本指南中,我们将下载一个小型模型:
TinyLlama-1.1B-Chat-v1.0.Q5_K_M。注意:如果您没有wget,您可以通过此 链接 直接下载模型。
- 使 llamafile 可执行。首先,如果您尚未这样做,请打开一个终端。如果您使用的是 MacOS、Linux 或 BSD,您需要使用
chmod授予计算机执行此新文件的权限(见下文)。如果您使用的是 Windows,请通过在文件末尾添加 “.exe” 来重命名文件(模型文件应命名为TinyLlama-1.1B-Chat-v1.0.Q5_K_M.llamafile.exe)。
- 以“服务器模式”运行 llamafile
用法
.stream(...) 方法
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。