诊室医患中文对话关键信息提取数据集

诊室医患中文对话关键信息提取数据集

V1.0
最新更新:2026-04-08 11:18:12
样本数:500
文件大小:1.4G
文件格式:WAV
数据领域:Audio
持有人:墨比乌斯公司
行业范围:医患对话数据集,医疗音频数据,关键信息提取音频
适用方向:医疗对话分析,智能医学助手,临床数据挖掘
数据集介绍

在医疗领域,医患对话中包含大量关键信息,这对于提高诊断效率和患者满意度至关重要。然而,目前的技术方案在识别和提取这些关键信息时,准确性和可靠性往往不足,尤其是在噪声环境中以及处理多语言和医用术语时面临挑战。本数据集旨在提高音频对话中的关键信息提取能力,符合医疗行业特定需求。数据采集通过专业录音设备在诊室内环境进行,保证真实场景模拟。质量控制采用三轮标注流程,经过一致性检查和医学专家审核,标注团队由具有医学背景的专业人员组成。数据预处理环节包括音频降噪、切割以及转写等,最终数据以WAV格式存储,并以对话转录文本的JSON格式组织。

示例样本展示
音频File NameDurationSample RateChannel对话类型说话者角色情绪语言言语清晰度关键词静音时长语速对话轮次
00:00/00:00
4d50e757efe8ecccfeadf913b490ef1e.wav88561441002
00:00/00:00
a0e6b37c0060a8887eb18ec3bb6bfbd1.wav28761441002
数据结构总览
字段类型描述
File NamestringFile name
DurationstringDuration
Sample RatestringAudio sample rate
ChannelstringAudio channel
对话类型string对话是在初诊、复诊还是随访中进行的。
说话者角色string说话者是医生还是患者。
情绪string从说话者的音频中检测到的情绪,如平静、焦虑、愤怒等。
语言string对话使用的语言,如中文、英文等。
言语清晰度string讲话的清晰度,比如清晰,含糊不清等。
关键词string对话中涉及的医疗关键字,如症状、药物名称等。
静音时长float对话中静音时段的累计时长(秒)。
语速float说话者的平均语速(字数每秒)。
对话轮次int对话中轮次的数量,即说话者交替轮流说话的次数。
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求