诊室医患中文对话关键信息提取数据集

数据集介绍

示例样本展示

数据结构总览

授权与合规说明

诊室医患中文对话关键信息提取数据集

V1.0

最新更新：2026-04-08 11:18:12

样本数：500

文件大小：1.4G

文件格式：WAV

数据领域：Audio

持有人：墨比乌斯公司

行业范围：医患对话数据集,医疗音频数据,关键信息提取音频

适用方向：医疗对话分析,智能医学助手,临床数据挖掘

数据集介绍

在医疗领域，医患对话中包含大量关键信息，这对于提高诊断效率和患者满意度至关重要。然而，目前的技术方案在识别和提取这些关键信息时，准确性和可靠性往往不足，尤其是在噪声环境中以及处理多语言和医用术语时面临挑战。本数据集旨在提高音频对话中的关键信息提取能力，符合医疗行业特定需求。数据采集通过专业录音设备在诊室内环境进行，保证真实场景模拟。质量控制采用三轮标注流程，经过一致性检查和医学专家审核，标注团队由具有医学背景的专业人员组成。数据预处理环节包括音频降噪、切割以及转写等，最终数据以WAV格式存储，并以对话转录文本的JSON格式组织。

示例样本展示

音频	File Name	Duration	Sample Rate	Channel	对话类型	说话者角色	情绪	语言	言语清晰度	关键词	静音时长	语速	对话轮次
00:00/00:00	4d50e757efe8ecccfeadf913b490ef1e.wav	88561	44100	2
00:00/00:00	a0e6b37c0060a8887eb18ec3bb6bfbd1.wav	28761	44100	2

数据结构总览

字段	类型	描述
File Name	string	File name
Duration	string	Duration
Sample Rate	string	Audio sample rate
Channel	string	Audio channel
对话类型	string	对话是在初诊、复诊还是随访中进行的。
说话者角色	string	说话者是医生还是患者。
情绪	string	从说话者的音频中检测到的情绪，如平静、焦虑、愤怒等。
语言	string	对话使用的语言，如中文、英文等。
言语清晰度	string	讲话的清晰度，比如清晰，含糊不清等。
关键词	string	对话中涉及的医疗关键字，如症状、药物名称等。
静音时长	float	对话中静音时段的累计时长（秒）。
语速	float	说话者的平均语速（字数每秒）。
对话轮次	int	对话中轮次的数量，即说话者交替轮流说话的次数。

授权与合规说明

项目	内容
授权类型	CC-BY-NC-SA 4.0（非商业署名共享）
商业使用	需申请专属订阅或授权合同（支持按月/按调用次数收费）
隐私与脱敏	无PII，无真实公司名，模拟场景均符合行业标准
合规体系	中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据？

让数据提供商通过发布请求来找到你

发布您的请求

相关数据集

腰痛针灸康复数据集

腰痛针灸康复数据集为医学图像分析提供了高质量的目标检测数据支持。

诊室电子病历图片数据集

诊室电子病历问答数据集专注于医疗健康领域的图片数据挖掘。

居家睡眠监测场景分类图像数据集

本数据集提供居家睡眠监测场景的分类图像，支持睡眠研究与医学影像分析。

实时注射治疗监控数据集

本数据集专注于实时注射治疗过程的监控，旨在提升医疗管理与安全性。

轮椅状态分类图像数据集（空置/有人使用）

本数据集用于轮椅状态的自动分类，助力智能医疗应用。

医护制服识别数据集

本数据集专注于医护制服的识别与分类，提供丰富的图像数据支持。

静脉采血并发症识别数据集

本数据集专注于静脉采血过程中的并发症识别，提供高质量的目标检测数据。

皮疹图像数据集

皮疹图像数据集为皮肤病诊断提供高质量图像数据，助力医学研究与机器学习应用。

实时血糖监测数据集

该数据集提供高质量的实时血糖监测图像数据，旨在提升糖尿病患者的健康管理水平。

胎心率监测数据集

胎心率监测数据集是专为胎心健康监测任务提供的高质量目标检测数据集。

没有更多了