课堂讲解中文语音内容分类数据集

课堂讲解中文语音内容分类数据集

V1.0
最新更新:2026-02-19 23:53:37
样本数:500
文件大小:1.3G
文件格式:WAV
数据领域:音频
持有人:墨比乌斯公司
行业范围:语音分类,教育音频数据,课堂讲解,语音识别
适用方向:课堂教学,在线教育,语音识别,教育内容分析
数据集介绍

在教育培训行业,随着在线教育和数字化课堂的蓬勃发展,海量的语音讲解内容需要被高效管理和分析,这是当前面临的一大挑战。现有的音频内容分类方法通常依赖于手动标记和分析,效率低且容易出现偏差。该数据集旨在提供高质量的语音数据,解决语音内容自动分类及分析的技术难题,满足精准教育内容分发和智能学习辅助的业务需求。数据采集利用高灵敏度麦克风和专业录音设备,在真实课堂环境中进行录制。为保证语音数据的高质量,采用多轮标注和一致性检查的方法,标注团队包括语言学专家和教育专家,规模达20人。数据预处理包括噪声消除、语音分段及特征提取,存储于WAV格式中,结合JSON文件记录标注信息及元数据。

示例样本展示
音频文件名时长音频采样率音频通道讲话者性别讲话者年龄组语言口音语速情感语调背景噪音内容主题复杂性级别文字转录
00:00/00:00
263a54d657e6017dd6f868ee1702b0d1.wav489805441002
00:00/00:00
a422b0003ed626d2dd2735b7a31c3c7d.wav373101441002
00:00/00:00
d0d3ef285436a4d83a07e906ce1e8bb2.wav90793441002
数据结构总览
字段类型描述
文件名string文件名
时长string时长
音频采样率string音频采样率
音频通道string音频通道
讲话者性别string语音中讲话者的性别。
讲话者年龄组string语音中讲话者所属的年龄组。
语言string语音中使用的语言。
口音string语音中讲话者的口音类型。
语速float语音中讲话者的平均语速,以每分钟单词数计。
情感语调string语音中传达的情感语调。
背景噪音string语音中是否存在背景噪音及其类型。
内容主题string语音内容所涉及的主题。
复杂性级别string语音内容的复杂性级别,如基础、中级或高级。
文字转录text语音的文字转录内容。
授权与合规说明
项目内容
授权类型CC-BY-NC-SA 4.0(非商业署名共享)
商业使用需申请专属订阅或授权合同(支持按月/按调用次数收费)
隐私与脱敏无PII,无真实公司名,模拟场景均符合行业标准
合规体系中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持

找不到您要找的数据?

让数据提供商通过发布请求来找到你

发布您的请求