量化已经是LLM部署和推理的必备环节了,在此了解一下:
-
top命令
在linux运维中,经常用到
top
命令,详细介绍一下: -
alfred自定义谷歌翻译workflow
如果要实现自定义workflow,则必须安装付费版的alfred,囊中羞涩的话可以自行淘宝。自定义步骤如下:
-
LLM微调过程中灾难性遗忘问题解决方法
灾难性遗忘是LLM微调过程中最常见的问题,下面是一些解决办法:
-
Win11+Docker搭建CUDA开发环境
最近入门了CUDA编程,先记录下搭建环境过程。
-
DPO讲解
PPO算法的pipeline冗长,涉及模型多,资源消耗大,且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法,去掉了RW训练和RL环节,只需要加载一个推理模型和一个训练模型,直接在偏好数据上进行训练即可:
-
PLE讲解
https://github.com/datawhalechina/fun-rec/blob/master/docs/ch02/ch2.2/ch2.2.5/PLE.md -
RLHF讲解
RLHF包含了两个至关重要的步骤:
- 训练Reward Model
- 用Reward Model和SFT Model构造Reward Function,基于PPO算法来训练LLM
- frozen RM
- frozen SFT Model
- Actor $\pi_{\Phi}^{R L}$ initialized from SFT Model
- Critic $V_\eta$ initialized from RM
最大化目标函数:
-
LLaMA2与LoRA结构详解
llama模型结构如下:
-
Self-Instruct
本篇工作利用LLM的生成能力,来产生大量指令数据集(指令、输入、输出),无需人工标注数据。