
最新更新:2026-02-19 23:53:37

样本数:500

文件大小:1.3G

文件格式:WAV

行业范围:语音分类,教育音频数据,课堂讲解,语音识别

适用方向:课堂教学,在线教育,语音识别,教育内容分析
数据集介绍在教育培训行业,随着在线教育和数字化课堂的蓬勃发展,海量的语音讲解内容需要被高效管理和分析,这是当前面临的一大挑战。现有的音频内容分类方法通常依赖于手动标记和分析,效率低且容易出现偏差。该数据集旨在提供高质量的语音数据,解决语音内容自动分类及分析的技术难题,满足精准教育内容分发和智能学习辅助的业务需求。数据采集利用高灵敏度麦克风和专业录音设备,在真实课堂环境中进行录制。为保证语音数据的高质量,采用多轮标注和一致性检查的方法,标注团队包括语言学专家和教育专家,规模达20人。数据预处理包括噪声消除、语音分段及特征提取,存储于WAV格式中,结合JSON文件记录标注信息及元数据。
示例样本展示
数据结构总览
| 文件名 | string | 文件名 |
| 时长 | string | 时长 |
| 音频采样率 | string | 音频采样率 |
| 音频通道 | string | 音频通道 |
| 讲话者性别 | string | 语音中讲话者的性别。 |
| 讲话者年龄组 | string | 语音中讲话者所属的年龄组。 |
| 语言 | string | 语音中使用的语言。 |
| 口音 | string | 语音中讲话者的口音类型。 |
| 语速 | float | 语音中讲话者的平均语速,以每分钟单词数计。 |
| 情感语调 | string | 语音中传达的情感语调。 |
| 背景噪音 | string | 语音中是否存在背景噪音及其类型。 |
| 内容主题 | string | 语音内容所涉及的主题。 |
| 复杂性级别 | string | 语音内容的复杂性级别,如基础、中级或高级。 |
| 文字转录 | text | 语音的文字转录内容。 |
授权与合规说明| 授权类型 | CC-BY-NC-SA 4.0(非商业署名共享) |
| 商业使用 | 需申请专属订阅或授权合同(支持按月/按调用次数收费) |
| 隐私与脱敏 | 无PII,无真实公司名,模拟场景均符合行业标准 |
| 合规体系 | 中国《数据安全法》 / 欧盟GDPR / 企业数据可访问日志支持 |
找不到您要找的数据?
让数据提供商通过发布请求来找到你
发布您的请求