陪伴式沟通中文语音对话数据集

数据集介绍

示例样本展示

数据结构总览

授权与合规说明

陪伴式沟通中文语音对话数据集

V1.0

最新更新：2026-07-20 18:08:44

样本数：500

文件大小：1.5G

文件格式：WAV

数据领域：Audio

持有人：墨比乌斯公司

行业范围：TTS数据集,语音合成,音频对话数据集,陪伴式沟通

适用方向：智能助手,语音合成,社交机器人

数据集介绍

在现代生活中，人们越来越依赖语音助手和智能设备，这对于日常沟通的自然和流畅性提出了更高的要求。然而，现有的TTS系统在表达复杂情感和多样化的语境对话时常显乏力。因此，本数据集旨在提供高质量的陪伴式沟通语音录音，帮助解决这些技术瓶颈。数据采集通过多种类型的麦克风在不同环境下进行，包括家庭、办公室和户外场景，确保录音的多样性和代表性。质量控制包括多轮标注和一致性检查，由语言学和语音处理领域的专家团队负责，规模超过50人。数据经过降噪、对齐和格式转换等预处理，再以WAV格式进行组织存储，便于检索和使用。

示例样本展示

音频	File Name	Duration	Sample Rate	Channel	说话人ID	说话人性别	说话人年龄	语言	口音	情感语气	背景噪音水平	语速	对话轮次	转录准确性
00:00/00:00	8a08a5a806b4f244040993e8c68a6fc6.wav	19867	44100	2

数据结构总览

字段	类型	描述
File Name	string	File name
Duration	string	Duration
Sample Rate	string	Audio sample rate
Channel	string	Audio channel
说话人ID	string	说话人的唯一标识符。
说话人性别	string	说话人的性别信息，比如男或女。
说话人年龄	integer	说话人的年龄。
语言	string	语音内容所使用的语言，比如中文、英文等。
口音	string	说话人的口音信息，比如美式、英式等。
情感语气	string	语音中表达的情感语气，比如快乐、悲伤等。
背景噪音水平	string	语音录制时的背景噪音水平，比如低、中、高。
语速	float	语音的说话速度，通常用字数每秒表示。
对话轮次	integer	当前片段在对话中的轮次。
转录准确性	boolean	转录文本是否准确。

授权与合规说明

项目	内容
授权类型	CC-BY-NC-SA 4.0（非商业署名共享）
商业使用	需申请专属订阅或授权合同（支持按月/按调用次数收费）
隐私与脱敏	无PII，无真实公司名，模拟场景均符合行业标准
合规体系	中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据？

让数据提供商通过发布请求来找到你

发布您的请求

相关数据集

会议室白板内容文字提取数据集

会议室白板内容文字提取数据集用于提高白板文字的图像识别能力。

银行柜台访客接待图像数据集

银行柜台访客接待图像数据集用于提升访客管理与识别自动化水平。

地铁站台越界行为检测图片数据集

地铁站台越界行为检测图片数据集帮助提升轨道交通安全监控能力。

设计工作室创意讨论互动肢体语言识别视频数据集

设计工作室创意讨论互动肢体语言识别视频数据集帮助研究员分析团队成员间的非语言交流。

客厅电视识别图片数据集

客厅电视识别图片数据集专为日常场景中的电视目标检测任务设计。

验证码识别图片数据集

验证码识别图片数据集助力提升验证码破解与自动化识别的效率。

食堂餐盘遗留区域检测图像数据集

用于检测食堂餐盘遗留区域的高质量图像数据集。

家庭成员出入与访客行为轨迹检测数据集

该数据集专注于检测和分析家庭成员以及访客的出入与行为轨迹。

500条Trajectory

厨房餐具摆放位置图像数据集

厨房餐具摆放位置图像数据集提供高质量的厨房物品文本标签，助力家居智能化。

办公楼清洁工具规范存放检测图像数据集

提供用于检测办公楼清洁工具存放规范的高质量图像集。

没有更多了