马来语医疗语音识别数据集

马来语医疗语音识别数据集

V1.0
最新更新:2026-04-08 21:23:56
样本数:1000
文件大小:0
文件格式:
数据领域:Audio
持有人:墨比乌斯公司
行业范围:
适用方向:
数据集介绍

在医疗AI不断向智能语音交互、远程问诊、语音病历生成等方向拓展的背景下,行业专属语音识别模型的性能与数据质量之间的关系变得至关重要。尤其是对于马来语语种,医疗语音资源更显稀缺。

本数据集基于真实医疗场景采集的原始语音,经过精细的切段处理(单条音频 3–20 秒)和高质量人工转写,形成可直接用于训练语音识别系统的“音频 + 对齐文本”结构化语料,为构建精准、稳健的马来语医疗ASR系统提供基础资源。

该数据集具备高质量、任务适配度强、结构标准等显著优势。音频均来源于马来语医疗场景,涵盖真实交流内容,表达自然,语速多样,含丰富医学专业术语。所有音频已按句短段切割,便于模型训练收敛,配套文本由人工转写完成,准确率高,语义完整。结构统一、格式清晰,支持导出为主流ASR训练框架格式。该数据既适用于从零训练马来语医疗语音识别模型,也可用于微调通用大模型在医疗垂类的表现,是当前马来语医疗语音AI发展的关键训练资源。

示例样本展示
音频File NameDurationSample RateChannel转写文本语种
00:00/00:00
e08464f04f9ba5bc28267dcaad0b7fe9.wav5910160001
00:00/00:00
e27825a3f54beb61e3409cfb970dad12.wav23990160001
00:00/00:00
9b0fd522dc84277aabef381ce8546b8e.wav21620160001
00:00/00:00
3cc11e485e974cb0a0fb3d3b4d43ca94.wav2730160001
数据结构总览
字段类型描述
File NamestringFile name
DurationstringDuration
Sample RatestringAudio sample rate
ChannelstringAudio channel
转写文本string音频文件的转写文本
语种string音频内容的语言
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求