跳到主要内容
SpeechToTextLoader 允许使用 Google Cloud Speech-to-Text API 转录音频文件,并将转录文本加载到文档中。 要使用它,您应该安装 google-cloud-speech Python 包,并拥有一个启用了 Speech-to-Text API 的 Google Cloud 项目。

安装与设置

首先,您需要安装 google-cloud-speech Python 包。 您可以在 Speech-to-Text 客户端库 页面找到更多相关信息。 请遵循 Google Cloud 文档中的快速入门指南来创建项目并启用 API。
pip install -qU langchain-google-community[speech]

示例

SpeechToTextLoader 必须包含 project_idfile_path 参数。音频文件可以指定为 Google Cloud Storage URI (gs://...) 或本地文件路径。 加载器仅支持同步请求,每个音频文件有 60 秒或 10MB 的限制
from langchain_google_community import SpeechToTextLoader

project_id = "<PROJECT_ID>"
file_path = "gs://cloud-samples-data/speech/audio.flac"
# or a local file path: file_path = "./audio.wav"

loader = SpeechToTextLoader(project_id=project_id, file_path=file_path)

docs = loader.load()
注意:调用 loader.load() 会阻塞,直到转录完成。 转录的文本可在 page_content 中获取:
docs[0].page_content
"How old is the Brooklyn Bridge?"
metadata 包含完整的 JSON 响应和更多元信息
docs[0].metadata
{
  'language_code': 'en-US',
  'result_end_offset': datetime.timedelta(seconds=1)
}

识别配置

您可以指定 config 参数来使用不同的语音识别模型并启用特定功能。 有关如何设置自定义配置的信息,请参阅 Speech-to-Text 识别器文档RecognizeRequest API 参考。 如果您未指定 config,将自动选择以下选项:
from google.cloud.speech_v2 import (
    AutoDetectDecodingConfig,
    RecognitionConfig,
    RecognitionFeatures,
)
from langchain_google_community import SpeechToTextLoader

project_id = "<PROJECT_ID>"
location = "global"
recognizer_id = "<RECOGNIZER_ID>"
file_path = "./audio.wav"

config = RecognitionConfig(
    auto_decoding_config=AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="long",
    features=RecognitionFeatures(
        enable_automatic_punctuation=False,
        profanity_filter=True,
        enable_spoken_punctuation=True,
        enable_spoken_emojis=True,
    ),
)

loader = SpeechToTextLoader(
    project_id=project_id,
    location=location,
    recognizer_id=recognizer_id,
    file_path=file_path,
    config=config,
)

以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.