英语带字幕音频数据集

本数据集包含超过5000小时英文演讲音频数据,并配有高质量、逐句对齐的英文字幕。数据来源于多种公开演讲场景,语言表达自然、语速多样,广泛应用于训练英语语音识别、语音合成、语音翻译等模型。

7
0
立即购买

数据描述

随着语音大模型(如 Whisper、wav2vec2.0、Bark)、跨模态模型(如 GPT-4V、多语言S2T模型)以及智能语音交互系统的快速发展,对大规模、高质量、语音-文本对齐的语音数据需求急剧上升。

本数据集以大量高质量英文公开演讲为基础,采集并整理了约 5000 小时语音音频,并配套逐句字幕对齐文本,内容覆盖多个真实领域,语言表达自然、语速变化丰富,是用于训练语音识别、语音翻译、语音合成等模型的重要资源。

音频内容源于真实的公开演讲、教育传播、访谈讲述等语音场景,语言表达自然、语调丰富,远优于朗读类语料,更贴近实际应用需求。数据总时长达 5000 小时,,更具规模优势。所有音频均配有逐句对齐的英文字幕文本,可用于训练语音识别、语音翻译、TTS 等多任务模型。数据支持标准格式输出(如 WAV + JSON/TXT),也可提供句子级音频切分,极大降低买方训练准备成本。整体内容覆盖广泛主题领域,便于提升模型的语言理解广度与口语泛化能力,是构建新一代语音AI模型的理想基础数据。

数据参数

数据样例

相关推荐

没有更多了
找不到您要找的数据?
让数据提供商通过发布请求来找到你
发布您的请求