• Attention Sink

    论文发现自回归LLM存在的一个有趣现象:对于输入文本最靠前的少量几个token,无论它们在语义上与语言建模任务的相关性如何,大量的注意力分数都会分配给他们,如下图所示:

  • RAG

    现有的LLM已经具备了理解、生成、逻辑和记忆能力,RAG(Retrieval Augmented Generation)则是为其套上外挂,使LLM能够访问训练数据来源之外的权威知识库,并生成领域特定的内容,而无须重新训练模型。

  • 从loss角度理解LLM涌现能力

    如今的很多研究都表明小模型也能出现涌现能力,本文的作者团队通过大量实验发现模型的涌现能力与模型大小、训练计算量无关,只与预训练loss相关。

    作者团队惊奇地发现,不管任何下游任务,不管模型大小,模型出现涌现能力都不约而同地是在预训练loss降低到 2.2 以下后。

  • SwiGLU激活函数

    SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体,公式如下:

  • 模型训练的显存占用分布

    训练过程中,显存消耗主要有模型参数、梯度、optimizer状态值和中间激活值。

  • FP16与BF16区别

    16

  • NTK-Aware Interpolation

    主要思路:高频外推,低频内插。

  • GEMM优化

    以矩阵相乘的优化为例:

  • 现代GPU内存分级结构

    要实现CUDA高性能编程,就必须对GPU内存结构有深刻的了解。

  • 显存大小&显存位宽&显存频率

    简单说来,如果把显存比作一个加油站,那么:

    • 显存大小就是加油机
    • 显存位宽就是进出加油站路的宽度,路越宽,能进出加油站的车辆就越多
    • 显存频率相当于汽车进出加油站的速度,速度越快,汽车进出就越快
/20