家庭办公室远程会议中文语音转录数据集

数据集介绍

示例样本展示

数据结构总览

授权与合规说明

家庭办公室远程会议中文语音转录数据集

V1.0

最新更新：2026-05-23 18:01:11

样本数：500

文件大小：1.5G

文件格式：WAV

数据领域：Audio

持有人：墨比乌斯公司

行业范围：语音转录数据集,音频识别,远程会议音频,家庭办公室语音

适用方向：远程办公,语音助手,会议记录,自动转录

数据集介绍

该数据集的核心优势包括通过多轮标注和一致性检查确保标注精度达到98%以上，极高的一致性和完整性。创新之处在于引入了环境声增强技术，使得数据集在多样化背景噪声条件下表现更优。实际应用显示，该数据集能够显著提高语音识别系统在混合噪声下的转录准确率，提升幅度可达20%。相比于同类数据集，本数据集在多口音识别和多场景适应性方面具有明显优势，尤其在稀缺的家庭环境音频中提供了充足的多样性，特征及场景覆盖更广。数据具有优秀的可扩展性，能够支持后续的模型优化和其他自然语言处理任务，显示出出色的通用性。

示例样本展示

音频	File Name	Duration	Sample Rate	Channel	讲话者ID	语言	口音	背景噪音	情感	讲话速度	停顿时长	讲话清晰度	对话类型
00:00/00:00	d759da0ae66dd0fa766f15c264efdf2a.wav	26782	44100	2

数据结构总览

字段	类型	描述
File Name	string	File name
Duration	string	Duration
Sample Rate	string	Audio sample rate
Channel	string	Audio channel
讲话者ID	string	参与会议的每个讲话者的唯一标识。
语言	string	音频中使用的语言种类。
口音	string	讲话者口音的类型。
背景噪音	string	音频中的背景噪音情况描述。
情感	string	讲话者在音频中表达的情感类型。
讲话速度	string	讲话者的语速快慢，通常描述为每分钟单词数。
停顿时长	string	讲话者在两句话之间的停顿时长。
讲话清晰度	string	描述讲话者声音清晰程度的信息。
对话类型	string	对话的类型，比如一对一、多方会议等。

授权与合规说明

项目	内容
授权类型	CC-BY-NC-SA 4.0（非商业署名共享）
商业使用	需申请专属订阅或授权合同（支持按月/按调用次数收费）
隐私与脱敏	无PII，无真实公司名，模拟场景均符合行业标准
合规体系	中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据？

让数据提供商通过发布请求来找到你

发布您的请求

相关数据集

联合办公空间人员协作图像数据集

联合办公空间人员协作图像数据集，助力协作行为分析与优化。

阳台外立面与悬挂物安全风险语义分割图像数据集

阳台外立面与悬挂物安全风险语义分割图像数据集帮助识别家庭安全隐患。

食堂餐盘遗留区域检测图像数据集

用于检测食堂餐盘遗留区域的高质量图像数据集。

银行柜台访客接待图像数据集

银行柜台访客接待图像数据集用于提升访客管理与识别自动化水平。

餐具摆放结构图像数据集

该数据集通过图像形式展现不同情况下的餐具摆放结构，用于提高餐饮管理及自动化摆放系统的智能化水平。

走廊公共通道占用图片识别数据集

该数据集用于识别走廊和公共通道的占用情况。

地下室漏水区域实时检测视频数据集

一个用于检测地下室漏水区域的实时视频数据集。

员工食堂菜品种类快速判别图像数据集

员工食堂菜品种类快速判别图像数据集是一套帮助提高识别准确率和效率的图像数据集。

聊天记录图片数据集

聊天记录图片数据集面向文本识别和自然语言处理的训练任务。

客厅电视内容音频背景音分类数据集

用于分类客厅电视内容中的音频背景音的数据集。

没有更多了