德语医疗语音识别数据集

数据集介绍

示例样本展示

数据结构总览

授权与合规说明

德语医疗语音识别数据集

V1.0

最新更新：2026-02-22 19:35:32

样本数：1000

文件大小：0

文件格式：

数据领域：音频

持有人：墨比乌斯公司

行业范围：

适用方向：

数据集介绍

在医疗AI不断向智能语音交互、远程问诊、语音病历生成等方向拓展的背景下，行业专属语音识别模型的性能与数据质量之间的关系变得至关重要。尤其是对于德语语种，医疗语音资源更显稀缺。
本数据集基于真实医疗场景采集的原始语音，经过精细的切段处理（单条音频 3–20 秒）和高质量人工转写，形成可直接用于训练语音识别系统的“音频 + 对齐文本”结构化语料，为构建精准、稳健的德语医疗ASR系统提供基础资源。
该数据集具备高质量、任务适配度强、结构标准等显著优势。音频均来源于德语医疗场景，涵盖真实交流内容，表达自然，语速多样，含丰富医学专业术语。所有音频已按句短段切割，便于模型训练收敛，配套文本由人工转写完成，准确率高，语义完整。结构统一、格式清晰，支持导出为主流ASR训练框架格式。该数据既适用于从零训练德语医疗语音识别模型，也可用于微调通用大模型在医疗垂类的表现，是当前德语医疗语音AI发展的关键训练资源。

示例样本展示

音频	文件名	时长	音频采样率	音频通道	转写文本	语种
00:00/00:00	df332fc81f7191d285dd87f31910fa77	29840	16000	1
00:00/00:00	4843fb8b01f5b52a91165738836fb3c3	22480	16000	1

数据结构总览

字段	类型	描述
文件名	string	文件名
时长	string	时长
音频采样率	string	音频采样率
音频通道	string	音频通道
转写文本	string	音频文件的转写文本
语种	string	音频内容的语言

授权与合规说明

项目	内容
授权类型	CC-BY-NC-SA 4.0（非商业署名共享）
商业使用	需申请专属订阅或授权合同（支持按月/按调用次数收费）
隐私与脱敏	无PII，无真实公司名，模拟场景均符合行业标准
合规体系	中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据？

让数据提供商通过发布请求来找到你

发布您的请求

相关数据集

实时血氧监测数据集

这是一个专注于实时血氧监测的目标检测数据集，旨在提升医疗监测的准确性与效率。

医疗健康诊断建议合理性评估RLHF数据集

本数据集收录大量临床初诊建议样本，融合人类合理性反馈与医学解释，用于强化AI问诊系统的行为安全性与推荐责任感，是医疗大模型RLHF优化的重要基准资源。

血压计设备操作数据集

本数据集提供血压计设备操作的高质量图像数据，支持医疗设备监测与目标检测任务。

急诊医护急救视频数据集

本数据集用于支持机器学习技术在急诊医疗场景中的应用与发展。

餐厅饮食健康文化墙图像分类数据集

餐厅饮食健康文化墙图像分类数据集用于提升餐厅的饮食健康文化宣传效果。

牙科器械使用场景数据集

本数据集专注于牙科器械的使用场景，旨在提升目标检测任务的准确性。

牙科诊疗设备识别数据集

本数据集提供多样化的牙科诊疗设备图像，用于目标检测模型的训练与优化。

药品分类与检测数据集

本数据集用于药品的分类与检测，提供高质量的图像数据支持。

50000/组图片

临床血压异常检测数据集

本数据集旨在提高血压异常检测的效率与准确性，为临床诊断提供支持。

实时急救设备监测数据集

本数据集专注于实时急救设备的监测，支持目标检测任务，提升医疗设备管理效率。

15000/组图片

没有更多了