<p align="right"><font color="#3f3f3f">2025年06月20日</font></p> LLM在对齐阶段主要进行以下几个方面的训练和优化: ## 1. 监督微调(Supervised Fine-tuning, SFT) 在预训练完成后,模型使用人工标注的高质量对话数据进行微调。这个阶段的目标是让模型学会更好地理解和执行指令。 **具体做法:** - 收集人工编写的指令-回答对 - 训练模型学习这些示范性回答 - 让模型掌握对话的基本格式和风格 **例子:** - 指令:解释什么是光合作用 - 人工标注的回答:光合作用是植物利用阳光、二氧化碳和水合成葡萄糖并释放氧气的过程... ## 2. 人类反馈强化学习(RLHF) 这是对齐训练的核心环节,通过人类评价者的反馈来训练奖励模型,再用强化学习优化语言模型。 **具体流程:** - 生成多个回答候选 - 人类评价者对回答质量进行排序 - 训练奖励模型预测人类偏好 - 使用PPO等强化学习算法优化模型 **例子:** 对于"如何处理网络霸凌"这个问题,人类评价者会倾向于选择提供建设性建议、避免报复性回应的答案。 ## 3. 指令跟随能力训练 专门训练模型理解和执行各种类型的指令,包括格式要求、角色扮演、特定任务等。 **例子:** - "用表格形式总结以下信息" - "以一个历史学家的身份分析这个事件" - "只用三个词回答这个问题" ## 4. 安全性和有害性缓解 训练模型识别和拒绝有害请求,包括: **主要方面:** - 拒绝生成暴力、歧视性内容 - 避免提供危险信息(如制造爆炸物) - 保护隐私信息 - 避免传播虚假信息 **例子:** 当用户询问如何制造毒品时,模型会拒绝回答并解释为什么不能提供此类信息。 ## 5. 价值观对齐 训练模型体现特定的价值观,如: - 诚实性:承认不确定性,避免编造信息 - 有用性:提供实际有帮助的回答 - 无害性:避免造成伤害 这些对齐技术的目标是让LLM既能有效完成任务,又能符合人类的价值观和安全标准。不过需要注意的是,对齐是一个持续的技术挑战,目前的方法仍有局限性。