
最新更新:2026-04-08 11:18:12

样本数:500

文件大小:1.4G

文件格式:WAV

行业范围:医患对话数据集,医疗音频数据,关键信息提取音频

适用方向:医疗对话分析,智能医学助手,临床数据挖掘
数据集介绍在医疗领域,医患对话中包含大量关键信息,这对于提高诊断效率和患者满意度至关重要。然而,目前的技术方案在识别和提取这些关键信息时,准确性和可靠性往往不足,尤其是在噪声环境中以及处理多语言和医用术语时面临挑战。本数据集旨在提高音频对话中的关键信息提取能力,符合医疗行业特定需求。数据采集通过专业录音设备在诊室内环境进行,保证真实场景模拟。质量控制采用三轮标注流程,经过一致性检查和医学专家审核,标注团队由具有医学背景的专业人员组成。数据预处理环节包括音频降噪、切割以及转写等,最终数据以WAV格式存储,并以对话转录文本的JSON格式组织。
示例样本展示
数据结构总览
| File Name | string | File name |
| Duration | string | Duration |
| Sample Rate | string | Audio sample rate |
| Channel | string | Audio channel |
| 对话类型 | string | 对话是在初诊、复诊还是随访中进行的。 |
| 说话者角色 | string | 说话者是医生还是患者。 |
| 情绪 | string | 从说话者的音频中检测到的情绪,如平静、焦虑、愤怒等。 |
| 语言 | string | 对话使用的语言,如中文、英文等。 |
| 言语清晰度 | string | 讲话的清晰度,比如清晰,含糊不清等。 |
| 关键词 | string | 对话中涉及的医疗关键字,如症状、药物名称等。 |
| 静音时长 | float | 对话中静音时段的累计时长(秒)。 |
| 语速 | float | 说话者的平均语速(字数每秒)。 |
| 对话轮次 | int | 对话中轮次的数量,即说话者交替轮流说话的次数。 |
授权与合规说明| 授权类型 | CC-BY-NC-SA 4.0(非商业署名共享) |
| 商业使用 | 需申请专属订阅或授权合同(支持按月/按调用次数收费) |
| 隐私与脱敏 | 无PII,无真实公司名,模拟场景均符合行业标准 |
| 合规体系 | 中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持 |
找不到您要找的数据?
让数据提供商通过发布请求来找到你
发布您的请求