公共卫生间引导中文语音数据集

公共卫生间引导中文语音数据集

V1.0
最新更新:2026-03-06 04:40:13
样本数:500
文件大小:1.2G
文件格式:WAV
数据领域:音频
持有人:墨比乌斯公司
行业范围:公共卫生间语音引导,语音识别训练数据,公共设施智能化
适用方向:智能家居,公共设施管理,人机交互
数据集介绍

在现代城市化进程中,公共卫生间作为基础设施,其服务的便利性和用户体验已成为城市文明的重要体现。然而,由于缺乏语言引导,用户常面临寻址困难、使用指引不清等问题,影响使用体验。现有的语音引导系统在公共环境的鲁棒性、识别率和交互自然性方面仍有不足,无法完全满足用户需求。该数据集旨在提供高质量的语音样本,供语音识别系统训练,提升公共设施导引的智能化水平。

本数据集的音频数据通过专业录音设备在各种真实模拟场景下采集,涵盖不同性别、年龄、口音的说话人语音,同时使用环境噪声录入多样性提高自然性。为确保数据质量,多轮标注及一致性检查相结合,由具备声学和语言学背景的专家团队进行审核。数据预处理步骤包括语音信号去噪、切分与标准化处理,最后存储为WAV格式,并按照语种、场景进行系统组织。

该数据集的核心优势体现在:其标注精度达98%以上,一致性和语音样本的完整性经过严格控管;采用新的数据增强技术,如声学特性转换和多路径增强,提高识别系统的适应性;通过提升语音识别引导系统的准确率,解决了公共设施导航中的实际困难,与同类数据集相比,提供了更为丰富的情境和声学特性数据;稀缺性在于其涵盖广泛的用户群体声音样本,具备极高的通用性和可扩展性,可为其他类似语音应用提供参考标准。

示例样本展示
音频文件名时长音频采样率音频通道语言说话者性别说话者年龄组口音环境噪声级别语速是否有稿对话还是独白
00:00/00:00
65b61544c8c941be3426d568ecc15380.wav8097441002
数据结构总览
字段类型描述
文件名string文件名
时长string时长
音频采样率string音频采样率
音频通道string音频通道
语言string音频中的语言类型,例如普通话、英语等。
说话者性别string录制文件中说话者的性别,可能为男性、女性。
说话者年龄组string录制文件中说话者的年龄组,例如儿童、青年、中年、老年。
口音string录制文件中的口音特征,例如美式英语、英式英语等。
环境噪声级别string录制文件中环境噪声的级别,例如低噪声、中等噪声、高噪声。
语速string录制文件中的说话速度,例如慢速、正常速度、快速。
是否有稿string判断录音是否为有稿录制或自由发挥。
对话还是独白string录音内容是对话还是独白。
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求