随着医疗大模型与智能问诊系统广泛部署,模型提出的初步诊断建议是否合理、安全、合规成为核心问题。传统SFT训练数据往往未考虑医疗伦理与诊疗流程,容易出现“过度诊断”或“处理不当”的情况。为推动模型从输出内容的正确性向推荐行为的合理性进化,本数据集聚焦“诊断建议是否适当”这一任务,结合人类专家打分与理由说明构建RLHF训练样本,帮助模型学会控制风险、优化诊疗路径。