Swift's Blog
HOME
ARCHIVES
TAGS
CATEGORIES
LINKS
ABOUT
HOME
ARCHIVES
TAGS
CATEGORIES
LINKS
ABOUT
InstructGPT
Swift
Lv6
2023-07-09 02:46:42
2023-07-09 02:46:42
Machine Learning
LLM
GPT
Reinforcement Learning
PPO
ChatGPT背后的技术原理:
第二步中已经完成了奖励模型的训练,在第三步中奖励模型用PPO来训练第一步中微调好的GPT3,使其能够生成符合指令的文本
LLM
GPT
Reinforcement Learning
PPO
布隆过滤器误判率计算
Prev posts
Transformer输入长度受限的改进方案
Next posts