langchain-google-genai 包提供了这些模型的 LangChain 集成。这通常是个人开发者的最佳起点。 有关最新模型、其功能、上下文窗口等信息,请访问 Google AI 文档。所有模型 ID 都可以在 Gemini API 文档 中找到。集成详情
| 类别 | 包 | 本地 | 可序列化 | JS 支持 | 下载量 | 版本 |
|---|---|---|---|---|---|---|
| ChatGoogleGenerativeAI | langchain-google-genai | ❌ | 测试版 | ✅ |
模型功能
设置
要访问 Google AI 模型,您需要创建一个 Google 帐户,获取 Google AI API 密钥,并安装langchain-google-genai 集成包。 1. 安装:聊天模型
使用ChatGoogleGenerativeAI 类与 Google 的聊天模型进行交互。有关完整详细信息,请参阅 API 参考。
实例化
现在我们可以实例化我们的模型对象并生成聊天完成调用
多模态用法
Gemini 模型可以接受多模态输入(文本、图像、音频、视频),对于某些模型,还可以生成多模态输出。图像输入
使用包含列表内容格式的HumanMessage 提供图像输入以及文本。请确保使用支持图像输入的模型,例如 gemini-2.5-flash。
image_url 格式
- 一个 Google Cloud Storage URI(
gs://...)。确保服务帐户具有访问权限。 - 一个 PIL Image 对象(库处理编码)。
音频输入
提供音频文件输入以及文本。视频输入
提供视频文件输入以及文本。图像生成(多模态输出)
某些模型(例如gemini-2.5-flash-image)可以内联生成文本和图像。您需要指定所需的 response_modalities。有关详细信息,请参阅 Gemini API 文档。
工具调用
您可以为模型配备工具来调用。结构化输出
使用 Pydantic 模型强制模型以特定结构响应。结构化输出方法
支持两种结构化输出方法method="function_calling"(默认):使用工具调用来提取结构化数据。与所有 Gemini 模型兼容。method="json_schema"或method="json_mode":使用 Gemini 的原生结构化输出和responseSchema。更可靠,但需要 Gemini 1.5+ 模型。(json_mode旨在保持向后兼容性)
json_schema 方法以提高可靠性,因为它直接约束模型的生成过程,而不是依赖于后处理工具调用。
令牌使用跟踪
从响应元数据访问令牌使用信息。内置工具
Google Gemini 支持多种内置工具(Google 搜索、代码执行),这些工具可以以通常的方式绑定到模型。原生异步
使用异步方法进行非阻塞调用。安全设置
Gemini 模型具有可以覆盖的默认安全设置。如果您从模型中收到大量“安全警告”,您可以尝试调整模型的safety_settings 属性。例如,要关闭对危险内容的安全阻止,您可以按如下方式构造 LLM:
API 参考
有关所有 ChatGoogleGenerativeAI 功能和配置的详细文档,请访问 API 参考。以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。