墨比乌斯公司在医疗AI不断向智能语音交互、远程问诊、语音病历生成等方向拓展的背景下,行业专属语音识别模型的性能与数据质量之间的关系变得至关重要。尤其是对于德语语种,医疗语音资源更显稀缺。
本数据集基于真实医疗场景采集的原始语音,经过精细的切段处理(单条音频 3–20 秒)和高质量人工转写,形成可直接用于训练语音识别系统的“音频 + 对齐文本”结构化语料,为构建精准、稳健的德语医疗ASR系统提供基础资源。
该数据集具备高质量、任务适配度强、结构标准等显著优势。音频均来源于德语医疗场景,涵盖真实交流内容,表达自然,语速多样,含丰富医学专业术语。所有音频已按句短段切割,便于模型训练收敛,配套文本由人工转写完成,准确率高,语义完整。结构统一、格式清晰,支持导出为主流ASR训练框架格式。该数据既适用于从零训练德语医疗语音识别模型,也可用于微调通用大模型在医疗垂类的表现,是当前德语医疗语音AI发展的关键训练资源。
| 音频 | 文件名 | 时长 | 音频采样率 | 音频通道 | 转写文本 | 语种 |
|---|---|---|---|---|---|---|
| df332fc81f7191d285dd87f31910fa77 | 29840 | 16000 | 1 | |||
| 4843fb8b01f5b52a91165738836fb3c3 | 22480 | 16000 | 1 |
| 字段 | 类型 | 描述 |
|---|---|---|
| 文件名 | string | 文件名 |
| 时长 | string | 时长 |
| 音频采样率 | string | 音频采样率 |
| 音频通道 | string | 音频通道 |
| 转写文本 | string | 音频文件的转写文本 |
| 语种 | string | 音频内容的语言 |
| 项目 | 内容 |
|---|---|
| 授权类型 | CC-BY-NC-SA 4.0(非商业署名共享) |
| 商业使用 | 需申请专属订阅或授权合同(支持按月/按调用次数收费) |
| 隐私与脱敏 | 无PII,无真实公司名,模拟场景均符合行业标准 |
| 合规体系 | 中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持 |
让数据提供商通过发布请求来找到你