Swift's Blog

常见的LLM推理加速解决方案

KV Cache：用空间换时间
- 当decoder输入序列是 $t_1, t_2, \dots, t_n$ 时，预测$t_{n+1}$，只需利用到 $q^n$ 以及历史所有的 $k^i, v^i, i \in \{1,\dots,n \}$ ： $h_n = \sum_{i=1}^{n} softmax(q^n \cdot k^i) \cdot v^i \\ t_{n+1} = f(h_n)$ 无须冗余attention计算 $h_1, \dots, h_{n-1}$ 以及 qkv映射 $q_1=W_q(t_1), k_1=W_k(t_1), k_1=W_v(t_1), \dots, q_{n-1}=W_q(t_{n-1}), k_1=W_k(t_{n-1}), k_1=W_v(t_{n-1})$

2024-01-26 17:32:15

NLP

模型量化入门

量化已经是LLM部署和推理的必备环节了，在此了解一下：

2024-01-24 11:31:21

NLP

LLM
Quantize

top命令

在linux运维中，经常用到 top 命令，详细介绍一下：

top

2024-01-23 17:50:41

OS

Linux
top

alfred自定义谷歌翻译workflow

如果要实现自定义workflow，则必须安装付费版的alfred，囊中羞涩的话可以自行淘宝。自定义步骤如下：

2024-01-23 13:05:05

tools

LLM微调过程中灾难性遗忘问题解决方法

灾难性遗忘是LLM微调过程中最常见的问题，下面是一些解决办法：

2024-01-19 00:35:56

NLP

Win11+Docker搭建CUDA开发环境

最近入门了CUDA编程，先记录下搭建环境过程。

2023-12-24 17:18:44

Machine Learning

DPO讲解

PPO算法的pipeline冗长，涉及模型多，资源消耗大，且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法，去掉了RW训练和RL环节，只需要加载一个推理模型和一个训练模型，直接在偏好数据上进行训练即可：

DPO

2023-12-18 01:24:01

NLP

PLE讲解

https://github.com/datawhalechina/fun-rec/blob/master/docs/ch02/ch2.2/ch2.2.5/PLE.md

2023-11-14 03:14:45

搜广推

MTL

RLHF讲解

RLHF包含了两个至关重要的步骤：

训练Reward Model
用Reward Model和SFT Model构造Reward Function，基于PPO算法来训练LLM
1. frozen RM
2. frozen SFT Model
3. Actor $\pi_{\Phi}^{R L}$ initialized from SFT Model
4. Critic $V_\eta$ initialized from RM

最大化目标函数：

$\begin{aligned} \text { objective }(\phi)= & E_{(x, y) \sim D_{\pi_\phi \mathrm{RL}}}\left[r_\theta(x, y)-\beta \log \left(\pi_\phi^{\mathrm{RL}}(y \mid x) / \pi^{\mathrm{SFT}}(y \mid x)\right)\right]+ \\ & \gamma E_{x \sim D_{\text {pectrain }}}\left[\log \left(\pi_\phi^{\mathrm{RL}}(x)\right)\right] \end{aligned}$

2023-11-13 02:15:29

NLP

LLaMA2与LoRA结构详解

llama模型结构如下：

2023-11-06 02:34:29

NLP