<p align="right"><font color="#3f3f3f">2025年06月20日</font></p>
LLM在对齐阶段主要进行以下几个方面的训练和优化:
## 1. 监督微调(Supervised Fine-tuning, SFT)
在预训练完成后,模型使用人工标注的高质量对话数据进行微调。这个阶段的目标是让模型学会更好地理解和执行指令。
**具体做法:**
- 收集人工编写的指令-回答对
- 训练模型学习这些示范性回答
- 让模型掌握对话的基本格式和风格
**例子:**
- 指令:解释什么是光合作用
- 人工标注的回答:光合作用是植物利用阳光、二氧化碳和水合成葡萄糖并释放氧气的过程...
## 2. 人类反馈强化学习(RLHF)
这是对齐训练的核心环节,通过人类评价者的反馈来训练奖励模型,再用强化学习优化语言模型。
**具体流程:**
- 生成多个回答候选
- 人类评价者对回答质量进行排序
- 训练奖励模型预测人类偏好
- 使用PPO等强化学习算法优化模型
**例子:** 对于"如何处理网络霸凌"这个问题,人类评价者会倾向于选择提供建设性建议、避免报复性回应的答案。
## 3. 指令跟随能力训练
专门训练模型理解和执行各种类型的指令,包括格式要求、角色扮演、特定任务等。
**例子:**
- "用表格形式总结以下信息"
- "以一个历史学家的身份分析这个事件"
- "只用三个词回答这个问题"
## 4. 安全性和有害性缓解
训练模型识别和拒绝有害请求,包括:
**主要方面:**
- 拒绝生成暴力、歧视性内容
- 避免提供危险信息(如制造爆炸物)
- 保护隐私信息
- 避免传播虚假信息
**例子:** 当用户询问如何制造毒品时,模型会拒绝回答并解释为什么不能提供此类信息。
## 5. 价值观对齐
训练模型体现特定的价值观,如:
- 诚实性:承认不确定性,避免编造信息
- 有用性:提供实际有帮助的回答
- 无害性:避免造成伤害
这些对齐技术的目标是让LLM既能有效完成任务,又能符合人类的价值观和安全标准。不过需要注意的是,对齐是一个持续的技术挑战,目前的方法仍有局限性。