Swift's Blog

Attention Sink

论文发现自回归LLM存在的一个有趣现象：对于输入文本最靠前的少量几个token，无论它们在语义上与语言建模任务的相关性如何，大量的注意力分数都会分配给他们，如下图所示：
2024-05-12 16:43:05
NLP
Attention

LLM
Read more
RAG

现有的LLM已经具备了理解、生成、逻辑和记忆能力，RAG(Retrieval Augmented Generation)则是为其套上外挂，使LLM能够访问训练数据来源之外的权威知识库，并生成领域特定的内容，而无须重新训练模型。
2024-05-12 14:20:49
NLP
LLM

RAG
Read more
从loss角度理解LLM涌现能力

如今的很多研究都表明小模型也能出现涌现能力，本文的作者团队通过大量实验发现模型的涌现能力与模型大小、训练计算量无关，只与预训练loss相关。

作者团队惊奇地发现，不管任何下游任务，不管模型大小，模型出现涌现能力都不约而同地是在预训练loss降低到 2.2 以下后。
2024-05-12 01:43:37
NLP
LLM

涌现能力

Pretraining Loss
Read more
SwiGLU激活函数

SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体，公式如下：
$\operatorname{SwiGLU}(x, W, V, b, c, \beta)=\operatorname{Swish}_\beta(x W+b) \otimes(x V+c)$
2024-05-09 01:00:36
NLP
LLM

激活函数

GELU

Swish

GLU
Read more
模型训练的显存占用分布

训练过程中，显存消耗主要有模型参数、梯度、optimizer状态值和中间激活值。
2024-05-05 17:11:38
Machine Learning
显存
Read more
FP16与BF16区别
2024-05-05 16:06:50
Machine Learning
LLM

FP16

BF16
Read more
NTK-Aware Interpolation

主要思路：高频外推，低频内插。
$m \theta_i=m *(\text { base } * \alpha)^{-2 i / d}=m *(10000 * \alpha)^{-2 i / d}$
2024-04-30 02:14:41
NLP
LLM

长度外推

RoPE
Read more
GEMM优化

以矩阵相乘的优化为例：
2024-04-22 02:13:31
Machine Learning
CUDA

GPU
Read more
现代GPU内存分级结构

要实现CUDA高性能编程，就必须对GPU内存结构有深刻的了解。
2024-04-22 00:43:35
Machine Learning
CUDA

GPU
Read more
显存大小&显存位宽&显存频率
简单说来，如果把显存比作一个加油站，那么:
- 显存大小就是加油机
- 显存位宽就是进出加油站路的宽度，路越宽，能进出加油站的车辆就越多
- 显存频率相当于汽车进出加油站的速度，速度越快，汽车进出就越快
2024-04-09 01:37:18
tools
GPU
Read more

/23