陪伴式沟通中文语音对话数据集

陪伴式沟通中文语音对话数据集

V1.0
最新更新:2026-02-22 08:16:39
样本数:500
文件大小:1.5G
文件格式:WAV
数据领域:音频
持有人:墨比乌斯公司
行业范围:TTS数据集,语音合成,音频对话数据集,陪伴式沟通
适用方向:智能助手,语音合成,社交机器人
数据集介绍

在现代生活中,人们越来越依赖语音助手和智能设备,这对于日常沟通的自然和流畅性提出了更高的要求。然而,现有的TTS系统在表达复杂情感和多样化的语境对话时常显乏力。因此,本数据集旨在提供高质量的陪伴式沟通语音录音,帮助解决这些技术瓶颈。数据采集通过多种类型的麦克风在不同环境下进行,包括家庭、办公室和户外场景,确保录音的多样性和代表性。质量控制包括多轮标注和一致性检查,由语言学和语音处理领域的专家团队负责,规模超过50人。数据经过降噪、对齐和格式转换等预处理,再以WAV格式进行组织存储,便于检索和使用。

示例样本展示
音频文件名时长音频采样率音频通道说话人ID说话人性别说话人年龄语言口音情感语气背景噪音水平语速对话轮次转录准确性
00:00/00:00
8a08a5a806b4f244040993e8c68a6fc6.wav19867441002
数据结构总览
字段类型描述
文件名string文件名
时长string时长
音频采样率string音频采样率
音频通道string音频通道
说话人IDstring说话人的唯一标识符。
说话人性别string说话人的性别信息,比如男或女。
说话人年龄integer说话人的年龄。
语言string语音内容所使用的语言,比如中文、英文等。
口音string说话人的口音信息,比如美式、英式等。
情感语气string语音中表达的情感语气,比如快乐、悲伤等。
背景噪音水平string语音录制时的背景噪音水平,比如低、中、高。
语速float语音的说话速度,通常用字数每秒表示。
对话轮次integer当前片段在对话中的轮次。
转录准确性boolean转录文本是否准确。
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求