灾难性遗忘是LLM微调过程中最常见的问题,下面是一些解决办法:
-
Win11+Docker搭建CUDA开发环境
最近入门了CUDA编程,先记录下搭建环境过程。
-
DPO讲解
PPO算法的pipeline冗长,涉及模型多,资源消耗大,且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法,去掉了RW训练和RL环节,只需要加载一个推理模型和一个训练模型,直接在偏好数据上进行训练即可:
-
PLE讲解
https://github.com/datawhalechina/fun-rec/blob/master/docs/ch02/ch2.2/ch2.2.5/PLE.md -
RLHF讲解
RLHF包含了两个至关重要的步骤:
- 训练Reward Model
- 用Reward Model和SFT Model构造Reward Function,基于PPO算法来训练LLM
- frozen RM
- frozen SFT Model
- Actor $\pi_{\Phi}^{R L}$ initialized from SFT Model
- Critic $V_\eta$ initialized from RM
最大化目标函数:
-
LLaMA2与LoRA结构详解
llama模型结构如下:
-
Self-Instruct
本篇工作利用LLM的生成能力,来产生大量指令数据集(指令、输入、输出),无需人工标注数据。
-
召回和排序的样本构造问题
简单介绍一下搜广推系统中的正负样本构造问题。
-
KV Cache
大模型推理加速的一个常用技术是KV Cache,在不牺牲任何计算精度的前提下,通过空间换时间,提高推理性能。注意,这里的Cache概念非常简单,跟浏览器缓存、CPU缓存不是一个概念。
-
Multi Query Attention & Group Query Attention
Multi Query Attention(MQA)在2019年就被提出来了,用于推理加速,但在当时并没有受到很多关注,毕竟一张2080就能跑Bert-base了。随着LLM的大火,MQA所带来的收益得以放大。