- 将你的 Messenger 数据下载到磁盘。
- 创建 Chat Loader 并调用
loader.load()(或loader.lazy_load()) 来执行转换。 - 可选择使用
merge_chat_runs将同一发件人连续发送的消息合并,和/或使用map_ai_messages将指定发件人的消息转换为“AIMessage”类。完成这些操作后,调用convert_messages_for_finetuning来为微调准备数据。
- 将你的消息上传到 OpenAI 并运行微调作业。
- 在你的 LangChain 应用程序中使用生成的模型!
1. 下载数据
要下载你自己的 Messenger 数据,请按照此处的说明操作。重要提示 - 请确保以 JSON 格式(而不是 HTML 格式)下载。 我们在此 Google Drive 链接中托管了一个示例转储文件,我们将在此演练中使用该文件:https://drive.google.com/file/d/1rh1s1o2i7B-Sk1v9o8KNgivLVGwJ-osV/view?usp=sharing。2. 创建聊天加载器
我们有两种不同的FacebookMessengerChatLoader 类,一个用于加载整个聊天目录,另一个用于加载单个文件。
3. 为微调做准备
调用load() 会将我们能提取的所有聊天消息作为人类消息返回。与聊天机器人对话时,对话通常遵循比真实对话更严格的交替对话模式。 你可以选择合并消息“运行”(来自同一发件人的连续消息),并选择一个发件人来代表“AI”。微调后的 LLM 将学会生成这些 AI 消息。现在我们可以转换为 OpenAI 格式字典
4. 微调模型
是时候微调模型了。确保你已安装openai 并已正确设置 OPENAI_API_KEY
5. 在 LangChain 中使用
你可以直接在ChatOpenAI 模型类中使用生成的模型 ID。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。