跳到主要内容
SubRip 文件格式Matroska 多媒体容器格式网站上被描述为“可能所有字幕格式中最基本的一种”。SubRip (SubRip Text) 文件的扩展名为 .srt,包含由空行分隔的格式化纯文本行组。字幕按顺序编号,从 1 开始。时间码格式为小时:分钟:秒,毫秒,时间单位固定为两位零填充数字,小数部分固定为三位零填充数字 (00:00:00,000)。由于该程序是在法国编写的,所以使用逗号作为小数分隔符。
如何从字幕 (.srt) 文件加载数据 从这里下载示例 .srt 文件
pip install -qU  pysrt
from langchain_community.document_loaders import SRTLoader
loader = SRTLoader(
    "example_data/Star_Wars_The_Clone_Wars_S06E07_Crisis_at_the_Heart.srt"
)
docs = loader.load()
docs[0].page_content[:100]
'<i>Corruption discovered\nat the core of the Banking Clan!</i> <i>Reunited, Rush Clovis\nand Senator A'

以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.