InstructGPT
Swift

ChatGPT背后的技术原理:

InstructGPT

  • 第二步中已经完成了奖励模型的训练,在第三步中奖励模型用PPO来训练第一步中微调好的GPT3,使其能够生成符合指令的文本