家庭办公室远程会议中文语音转录数据集

家庭办公室远程会议中文语音转录数据集

V1.0
最新更新:2026-02-20 21:23:17
样本数:500
文件大小:1.5G
文件格式:WAV
数据领域:音频
持有人:墨比乌斯公司
行业范围:语音转录数据集,音频识别,远程会议音频,家庭办公室语音
适用方向:远程办公,语音助手,会议记录,自动转录
数据集介绍

该数据集的核心优势包括通过多轮标注和一致性检查确保标注精度达到98%以上,极高的一致性和完整性。创新之处在于引入了环境声增强技术,使得数据集在多样化背景噪声条件下表现更优。实际应用显示,该数据集能够显著提高语音识别系统在混合噪声下的转录准确率,提升幅度可达20%。相比于同类数据集,本数据集在多口音识别和多场景适应性方面具有明显优势,尤其在稀缺的家庭环境音频中提供了充足的多样性,特征及场景覆盖更广。数据具有优秀的可扩展性,能够支持后续的模型优化和其他自然语言处理任务,显示出出色的通用性。

示例样本展示
音频文件名时长音频采样率音频通道讲话者ID语言口音背景噪音情感讲话速度停顿时长讲话清晰度对话类型
00:00/00:00
d759da0ae66dd0fa766f15c264efdf2a.wav26782441002
数据结构总览
字段类型描述
文件名string文件名
时长string时长
音频采样率string音频采样率
音频通道string音频通道
讲话者IDstring参与会议的每个讲话者的唯一标识。
语言string音频中使用的语言种类。
口音string讲话者口音的类型。
背景噪音string音频中的背景噪音情况描述。
情感string讲话者在音频中表达的情感类型。
讲话速度string讲话者的语速快慢,通常描述为每分钟单词数。
停顿时长string讲话者在两句话之间的停顿时长。
讲话清晰度string描述讲话者声音清晰程度的信息。
对话类型string对话的类型,比如一对一、多方会议等。
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求