
为了让粗排支持交叉特征来提升模型性能,同时又为了降低引入交叉特征、复杂模型所带来的预估延迟和资源消耗,阿里团队提出了COLD,在模型效果和算力间取得了平衡。

为了让粗排支持交叉特征来提升模型性能,同时又为了降低引入交叉特征、复杂模型所带来的预估延迟和资源消耗,阿里团队提出了COLD,在模型效果和算力间取得了平衡。
这是一篇硬核的优化Transformer的工作。众所周知,Transformer模型的计算量和储存复杂度是 $O(N^2)$ 。尽管先前有了大量的优化工作,比如LongFormer、Sparse Transformer、Reformer等等,一定程度上减轻了Transformer的资源消耗,但对Transformer的性能有所折损,且扩展性不强,不能泛化到其它领域、以及复杂结构的叠加。
FLIP由CLIP改进而来,其思想非常简单,通过在图片侧mask掉相当比例的patch(无须重构patch),实现速度和准确性的双重提升。
SENet思想非常简单,模型结构如下:
metapath2vec在用在工业界的召回通路中比较多,非常适用于异构的K部图。
元路径 $P$ 定义形式如: $V_1 \rightarrow^{R_1} V_2 \rightarrow^{R_2} A_3 \ldots \rightarrow^{R_l} A_{l+1}$ 表示了从 $A_1$ 到 $A_{l+1}$ 的复杂关系。
其中 $V_i$ 表示节点类型,$R_i$ 表示节点间的关系。 $R=R_1 \circ R_2 \circ R_3 \circ R_l$,元路径 $P$ 的长度即为关系 $R$ 的个数。
量化已经是LLM部署和推理的必备环节了,在此了解一下:
在linux运维中,经常用到 top 命令,详细介绍一下:

如果要实现自定义workflow,则必须安装付费版的alfred,囊中羞涩的话可以自行淘宝。自定义步骤如下:
灾难性遗忘是LLM微调过程中最常见的问题,下面是一些解决办法: