
MT(机器翻译数据集,Machine Translation)
Tr文本数据集
机器翻译数据集是用于训练自动翻译系统的核心数据集。这类数据集的关键特点是需要准确的双语或多语对照标注,尤其是在领域特定翻译(如医学、法律、金融等)中,需要高度专业化的标注。
查看详情
Speech-to-Text (语音转文本数据集)
音频数据集语音转文本数据集用于训练语音识别模型。这类数据集通常需要大量的语音录音和文本标注,且标注过程要求非常高的准确性。语音数据集的应用广泛,涵盖语音助手、自动语音识别(ASR)、实时翻译等领域
查看详情
TTS(文本转语音数据集,Text-to-Speech)
音频数据集TTS数据集用于训练文本到语音(Text-to-Speech)合成系统。这类数据集通常包括大量的标注语音样本,包括文本和其对应的语音录音,需要对语音的清晰度、音调、音量、语速等进行细致的标注。
查看详情
SFT(监督微调数据集,Supervised Fine-Tuning)
Tr文本数据集
SFT数据集专门用于对预训练的模型进行微调,通常是在某个特定任务或领域上对模型进行精细的监督学习。这些数据集通常需要非常高质量的标注,且往往涉及专家的参与。
查看详情
CoT(思考链数据集,Chain-of-Thought)
Tr文本数据集
CoT数据集涉及对模型进行思考过程的监督标注,即在模型做出决策时,每一步思考和推理过程都要进行标注。这种类型的标注通常用于增强模型的推理能力,尤其是在解答复杂问题时,例如数学问题、逻辑推理、常识推理等。
查看详情
RLHF(人类反馈强化学习数据集,Reinforcement Learning with Human Feedback)
Tr文本数据集
RLHF数据集用于强化学习的训练,特别是在模型通过人类反馈来改进其决策过程时。这类数据集需要大量的交互式反馈和奖励标注,通常是在不断优化的过程中收集的。
查看详情
Multimodal Data(多模态数据集)
图片数据集多模态数据集结合了来自不同模态的信息(例如,文本、图像、视频、声音等)。训练这样的模型需要整合多种不同类型的数据源,并要求标注员对这些多模态数据之间的关系进行精确标注。
查看详情
Video Understanding Data (视频理解数据集)
视频数据集视频理解是AI技术发展的一个热点领域,特别是在自动内容生成、视频推荐、视频监控等方面。传统的视频分析技术主要依赖于物体检测和简单的动作识别,而当前对更高层次视频理解的需求越来越迫切。包括对视频内容的情感理解、事件检测、行为分析、长时序信息的处理等。
查看详情