粤语医疗语音识别数据集

本数据集包含1000小时粤语医疗场景语音及高质量转写文本,适用于训练医疗语音识别、语音问答与健康AI系统。

1
0
立即购买

数据描述

在医疗AI不断向智能语音交互、远程问诊、语音病历生成等方向拓展的背景下,行业专属语音识别模型的性能与数据质量之间的关系变得至关重要。尤其是对于粤语语种,医疗语音资源更显稀缺。

本数据集基于真实医疗场景采集的原始语音,经过精细的切段处理(单条音频 3–20 秒)和高质量人工转写,形成可直接用于训练语音识别系统的“音频 + 对齐文本”结构化语料,为构建精准、稳健的粤语医疗ASR系统提供基础资源。

该数据集具备高质量、任务适配度强、结构标准等显著优势。音频均来源于粤语医疗场景,涵盖真实交流内容,表达自然,语速多样,含丰富医学专业术语。所有音频已按句短段切割,便于模型训练收敛,配套文本由人工转写完成,准确率高,语义完整。结构统一、格式清晰,支持导出为主流ASR训练框架格式。该数据既适用于从零训练粤语医疗语音识别模型,也可用于微调通用大模型在医疗垂类的表现,是当前粤语医疗语音AI发展的关键训练资源。

数据参数

文件名

32位MD5字符串

转写文本

无固定长度文本

采样率

16K

采样位数

16bit

音频声道

单声道

音频格式

WAV

文本格式

TXT

语种

粤语

数据样例

相关推荐

没有更多了
找不到您要找的数据?
让数据提供商通过发布请求来找到你
发布您的请求