小组交流中文语音对话数据集

小组交流中文语音对话数据集

V1.0
最新更新:2026-02-22 17:54:06
样本数:500
文件大小:1.4G
文件格式:WAV
数据领域:音频
持有人:墨比乌斯公司
行业范围:小组交流语音数据,低资源语言语音识别,音频数据集
适用方向:语音识别,自然语言处理,智能助理
数据集介绍

在现代社会中,语音识别技术逐渐融入人们的日常生活,但多数语音识别系统针对的是高资源语言,而低资源语言的识别在行业中依然面临巨大挑战。目前的解决方案主要依赖于相似语言的迁移学习,但效果不尽如人意,小组交流语音对话数据集旨在改善这一局限性,重点解决低资源语言的语音识别和解析的问题。数据采集采用专业级录音设备,在安静、不受干扰环境中进行,确保语音质量清晰。多轮标注和一致性检查是质量控制的关键措施,标注团队由语言学家和语音识别专家组成,规模达50人。数据预处理包括噪声过滤、音频段切分、语音特征提取,最后以WAV格式存储,结构清晰便于处理。

示例样本展示
音频文件名时长音频采样率音频通道语言说话者数量口音对话主题背景噪音水平语音情感对话轮次语速转录文本
00:00/00:00
83db1819469affd004e8ef1230a5aad7.wav14796441002
数据结构总览
字段类型描述
文件名string文件名
时长string时长
音频采样率string音频采样率
音频通道string音频通道
语言string音频对话中使用的语言
说话者数量int参与对话的不同说话者数量
口音string说话者的口音特征
对话主题string音频中讨论的主要主题
背景噪音水平string环境背景噪音的明显程度(如:低、中、高)
语音情感string说话者在对话中的情感特征(如:愤怒、开心、平静)
对话轮次int完整对话中发言的轮次或次数
语速float说话者在对话中的语速(字/分钟)
转录文本text音频内容的文字转录
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求