面试题解答

大模型SFT不就好了,为什么还要RLHF?

参考答案

要回答问题:大模型SFT不就好了,为什么还要RLHF?

需要理清楚以下几个问题:

  1. 大模型三段式训练中:PreTraining、SFT、FLHF 各种作用是什么?
  2. 为什么 SFT 不能对齐?
  3. RLHF 的作用是什么?
  4. 直接 PreTraining + FLHF 行不行?

问题一:大模型三段式训练中:PreTraining、SFT、FLHF 各种作用是什么?

PreTraing 就好比是给小学生学习很多课本教材,属于灌输知识的环节。

SFT阶段属于做习题的环节,通过外界反馈来提高解题能力。而RLHF则相当于包含错题和正确案例的考试,锻炼人判断对和不对的能力。

问题二:为什么 SFT 不能对齐?

SFT训练目的是预测值与标签token级别完全一致,模型效果依赖于标注数据的质量,且标注成本相对于RLHF的排序成本和难度要高。SFT仅有groud truth的正反馈,没有负反馈机制。模型只知道下一个token是什么是正确的,而不知道什么是错误的。

问题三:RLHF 的作用是什么?

RLHF利用人类反馈优化模型行为,使其更符合用户偏好。一般来说有4个模型,Actor(你)、Critic(教练)、Reward Model(裁判,参数冻结)、Ref Model(正常的你)。Critic一步步指导你进步,RM就是人类偏好,你学习的好不好由RM决定。Ref Model则是希望你不要变成一个疯子般的天才,缓解稳定训练使用的。

问题四:直接 PreTraining + FLHF 行不行?

跳过SFT直接RLHF训练,技术上可行,实际操作难度很大。没有做过练习题的学生,直接来做错题集,学习成本非常高。没有SFT过程的模型,在RLHF阶段收敛速度很慢,训练成本很高。且由于没有SFT过程,RLHF的优化探索空间很大,增加了很大的不确定性。只有本身很强了之后,再依赖部分错题集和负反馈才能取得较好结果

有需要全套的AI大模型面试题及答案解析资料的小伙伴,可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐