候诊提示中文语音识别音频数据集

候诊提示中文语音识别音频数据集

V1.0
最新更新:2026-02-22 03:28:26
样本数:500
文件大小:1.6G
文件格式:MP3
数据领域:音频
持有人:墨比乌斯公司
行业范围:医疗语音识别数据集,候诊音频数据,健康咨询语音
适用方向:医院语音系统,健康咨询,智能语音助手
数据集介绍

在现代医院中,管理候诊信息和提高患者体验依然是一个挑战。现有的语音系统大多局限于简单的对话或固定的回复,难以处理复杂的口语输入。候诊提示语音识别音频数据集的建设旨在提供更精准的语音识别模型,为医院和诊所提供更高效的候诊管理方案。数据通过在真实医院环境中使用多种录音设备采集,包括定向麦克风和便携录音设备,以保证背景噪音的多样性。数据采用多轮标注和专家审核,标注团队由语言学专家和医疗从业者组成,规模超过20人。数据经过噪声过滤、语音增强等预处理步骤,最终存储为MP3格式,并按发音人、情景等标签组织。


该数据集的核心优势在于高质量的标注精度,达到95%以上的一致性和完整性,创新采用语音噪声过滤和增强技术,以准确模拟医院环境中的实际使用情况。从应用价值而言,它可以降低医疗助理的工作负担,提高病人体验;相比同类数据集,它提供了独特的专业医疗术语和方言支持,其稀缺性体现在难以获取的真实医院环境录音。同样适用于其他高噪声环境,如大型客户服务中心,并提供了良好的可扩展性和通用性。

示例样本展示
音频文件名时长音频采样率音频通道语言说话人性别说话人年龄组口音类型背景噪声水平语音信噪比对话类型情感语调语速
00:00/00:00
f78c56990ae449a28499823db438136b.wav11584441002
数据结构总览
字段类型描述
文件名string文件名
时长string时长
音频采样率string音频采样率
音频通道string音频通道
语言string音频中使用的语言。
说话人性别string音频中说话人的性别。
说话人年龄组string音频中说话人的年龄组,例如:儿童、成人、老人。
口音类型string音频中说话人所表现的口音类型。
背景噪声水平string音频中背景噪声的水平,例如:高、中、低。
语音信噪比string音频中语音信噪比的程度。
对话类型string音频中对话的类型,例如:多人对话、单人独白。
情感语调string音频中说话人的情感语调,例如:愤怒、平静、快乐。
语速string音频中说话人的语速,例如:慢速、中速、快速。
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求