Swift's Blog

两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化：
2024-06-21 01:28:57
Machine Learning
Algorithm

Neural Networks
Read more
LLM Inference Performance Engineering

https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices
2024-06-12 01:15:00
NLP
LLM

Inference

Throughput
Read more
LLaMA2详解

LLaMA2的模型结构拆解：
2024-06-02 02:19:35
NLP
LLM

LLaMA
Read more
GPU利用率

英伟达官方的GPU利用率的定义如下：
$GPU Util rate = \frac{number \ of \ active \ SM}{number \ of \ total \ SM} \times 100\%$
2024-05-19 14:21:32
Machine Learning
GPU
Read more
Attention Sink

论文发现自回归LLM存在的一个有趣现象：对于输入文本最靠前的少量几个token，无论它们在语义上与语言建模任务的相关性如何，大量的注意力分数都会分配给他们，如下图所示：
2024-05-12 16:43:05
NLP
LLM

Attention
Read more
RAG

现有的LLM已经具备了理解、生成、逻辑和记忆能力，RAG(Retrieval Augmented Generation)则是为其套上外挂，使LLM能够访问训练数据来源之外的权威知识库，并生成领域特定的内容，而无须重新训练模型。
2024-05-12 14:20:49
NLP
LLM

RAG
Read more
从loss角度理解LLM涌现能力

如今的很多研究都表明小模型也能出现涌现能力，本文的作者团队通过大量实验发现模型的涌现能力与模型大小、训练计算量无关，只与预训练loss相关。

作者团队惊奇地发现，不管任何下游任务，不管模型大小，模型出现涌现能力都不约而同地是在预训练loss降低到 2.2 以下后。
2024-05-12 01:43:37
NLP
LLM

涌现能力

Pretraining Loss
Read more
SwiGLU激活函数

SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体，公式如下：
$\operatorname{SwiGLU}(x, W, V, b, c, \beta)=\operatorname{Swish}_\beta(x W+b) \otimes(x V+c)$
2024-05-09 01:00:36
NLP
LLM

激活函数

GELU

Swish

GLU
Read more
模型训练的显存占用分布

训练过程中，显存消耗主要有模型参数、梯度、optimizer状态值和中间激活值。
2024-05-05 17:11:38
Machine Learning
显存
Read more
FP16与BF16区别
2024-05-05 16:06:50
Machine Learning
LLM

FP16

BF16
Read more

/25