Swift's Blog

新一代粗排系统COLD

为了让粗排支持交叉特征来提升模型性能，同时又为了降低引入交叉特征、复杂模型所带来的预估延迟和资源消耗，阿里团队提出了COLD，在模型效果和算力间取得了平衡。
2024-02-21 01:37:18
搜广推
粗排

交叉特征
Read more
Flash-Attention

这是一篇硬核的优化Transformer的工作。众所周知，Transformer模型的计算量和储存复杂度是 $O(N^2)$ 。尽管先前有了大量的优化工作，比如LongFormer、Sparse Transformer、Reformer等等，一定程度上减轻了Transformer的资源消耗，但对Transformer的性能有所折损，且扩展性不强，不能泛化到其它领域、以及复杂结构的叠加。
2024-02-19 02:20:52
Machine Learning
Transformer

Attention

LLM
Read more
FLIP解读

FLIP由CLIP改进而来，其思想非常简单，通过在图片侧mask掉相当比例的patch（无须重构patch），实现速度和准确性的双重提升。
2024-02-06 17:22:20
Machine Learning
CLIP

MAE

Masked Autoencoders

Contrastive Learning
Read more
SENet在双塔中的应用

SENet思想非常简单，模型结构如下：
2024-02-05 01:14:04
搜广推
Dual Tower

SENet

召回负例

粗排负例
Read more
metapath2vec解读

metapath2vec在用在工业界的召回通路中比较多，非常适用于异构的K部图。

元路径 $P$ 定义形式如： $V_1 \rightarrow^{R_1} V_2 \rightarrow^{R_2} A_3 \ldots \rightarrow^{R_l} A_{l+1}$ 表示了从 $A_1$ 到 $A_{l+1}$ 的复杂关系。
其中 $V_i$ 表示节点类型，$R_i$ 表示节点间的关系。 $R=R_1 \circ R_2 \circ R_3 \circ R_l$，元路径 $P$ 的长度即为关系 $R$ 的个数。
2024-02-04 19:25:26
Machine Learning
Paper Reading

Heterogeneous Networks
Read more
常见的LLM推理加速解决方案
- KV Cache：用空间换时间
  - 当decoder输入序列是 $t_1, t_2, \dots, t_n$ 时，预测$t_{n+1}$，只需利用到 $q^n$ 以及历史所有的 $k^i, v^i, i \in \{1,\dots,n \}$ ： $h_n = \sum_{i=1}^{n} softmax(q^n \cdot k^i) \cdot v^i \\ t_{n+1} = f(h_n)$ 无须冗余attention计算 $h_1, \dots, h_{n-1}$ 以及 qkv映射 $q_1=W_q(t_1), k_1=W_k(t_1), k_1=W_v(t_1), \dots, q_{n-1}=W_q(t_{n-1}), k_1=W_k(t_{n-1}), k_1=W_v(t_{n-1})$
2024-01-26 17:32:15
NLP
Transformer

LLM

推理加速
Read more
模型量化入门

量化已经是LLM部署和推理的必备环节了，在此了解一下：
2024-01-24 11:31:21
NLP
LLM

Quantize
Read more
top命令

在linux运维中，经常用到 top 命令，详细介绍一下：
2024-01-23 17:50:41
OS
Linux

top
Read more
alfred自定义谷歌翻译workflow

如果要实现自定义workflow，则必须安装付费版的alfred，囊中羞涩的话可以自行淘宝。自定义步骤如下：
2024-01-23 13:05:05
tools
Alfred

Workflow
Read more
LLM微调过程中灾难性遗忘问题解决方法

灾难性遗忘是LLM微调过程中最常见的问题，下面是一些解决办法：
2024-01-19 00:35:56
NLP
LLM

灾难性遗忘
Read more

/25