人类反馈强化学习(RLHF)简介¶
备注
我理解概念,但是我不理解怎样实现...头疼
人类反馈强化学习(RLHF):
监督微调(SFT)
奖励模型(RM)训练
通过对奖励模型的近端策略优化(PPO)进行强化学习
人类反馈强化学习(RLHF)实现步骤:
初始模型训练 : 初始的人工智能模型是使用监督学习进行训练的,其中人类训练者提供正确行为的标记示例 (你可以理解为大量的文本或者图形由人工进行标注,需要使用海量的廉价劳动力,也就是AI血汗工厂)
收集人类反馈 : 初始模型训练完成后,人类训练师(也就是高级一点的AI血汗工人)参与提供有关模型性能的反馈,可以理解为对模型生成的输出或操作的质量或正确性进行排名和打分。该
反馈用于创建强化学习的奖励信号
强化学习 : 使用 近端策略优化(PPO) 或 包含人类生成的奖励信号的类似算法 对模型进行微调 -- 模型通过学习人类培训师提供的反馈来不断提高性能
迭代过程 : 不断重复上述 收集人类反馈 并通过 强化学习 完善模型的过程,从而不断改进模型的性能