InstructGPT | Swift's Blog

InstructGPT

Swift Lv6

2023-07-09 02:46:42 2023-07-09 02:46:42

Machine Learning

ChatGPT背后的技术原理：

InstructGPT

第二步中已经完成了奖励模型的训练，在第三步中奖励模型用PPO来训练第一步中微调好的GPT3，使其能够生成符合指令的文本