SpeechToTextLoader 允许使用 Google Cloud Speech-to-Text API 转录音频文件,并将转录文本加载到文档中。 要使用它,您应该安装 google-cloud-speech Python 包,并拥有一个启用了 Speech-to-Text API 的 Google Cloud 项目。
安装与设置
首先,您需要安装google-cloud-speech Python 包。 您可以在 Speech-to-Text 客户端库 页面找到更多相关信息。 请遵循 Google Cloud 文档中的快速入门指南来创建项目并启用 API。示例
SpeechToTextLoader 必须包含 project_id 和 file_path 参数。音频文件可以指定为 Google Cloud Storage URI (gs://...) 或本地文件路径。 加载器仅支持同步请求,每个音频文件有 60 秒或 10MB 的限制。loader.load() 会阻塞,直到转录完成。 转录的文本可在 page_content 中获取:metadata 包含完整的 JSON 响应和更多元信息
识别配置
您可以指定config 参数来使用不同的语音识别模型并启用特定功能。 有关如何设置自定义配置的信息,请参阅 Speech-to-Text 识别器文档 和 RecognizeRequest API 参考。 如果您未指定 config,将自动选择以下选项:- 模型:Chirp 通用语音模型
- 语言:
en-US - 音频编码:自动检测
- 自动标点符号:启用
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。