Swift's Blog

DPO讲解

PPO算法的pipeline冗长，涉及模型多，资源消耗大，且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法，去掉了RW训练和RL环节，只需要加载一个推理模型和一个训练模型，直接在偏好数据上进行训练即可：
2023-12-18 01:24:01
NLP
Read more
PLE讲解

https://github.com/datawhalechina/fun-rec/blob/master/docs/ch02/ch2.2/ch2.2.5/PLE.md
2023-11-14 03:14:45
搜广推
Read more
RLHF讲解
RLHF包含了两个至关重要的步骤：
1. 训练Reward Model
2. 用Reward Model和SFT Model构造Reward Function，基于PPO算法来训练LLM
  1. frozen RM
  2. frozen SFT Model
  3. Actor $\pi_{\Phi}^{R L}$ initialized from SFT Model
  4. Critic $V_\eta$ initialized from RM
最大化目标函数：
2023-11-13 02:15:29
NLP
Read more
LLaMA2与LoRA结构详解

llama模型结构如下：
2023-11-06 02:34:29
NLP
Read more
Self-Instruct

本篇工作利用LLM的生成能力，来产生大量指令数据集（指令、输入、输出），无需人工标注数据。
2023-10-11 02:19:51
Machine Learning
Read more
召回和排序的样本构造问题

简单介绍一下搜广推系统中的正负样本构造问题。
2023-09-14 00:49:20
搜广推
Read more
KV Cache

大模型推理加速的一个常用技术是KV Cache，在不牺牲任何计算精度的前提下，通过空间换时间，提高推理性能。注意，这里的Cache概念非常简单，跟浏览器缓存、CPU缓存不是一个概念。
2023-09-13 02:05:38
NLP
Read more
Multi Query Attention & Group Query Attention

Multi Query Attention(MQA)在2019年就被提出来了，用于推理加速，但在当时并没有受到很多关注，毕竟一张2080就能跑Bert-base了。随着LLM的大火，MQA所带来的收益得以放大。
2023-09-13 00:45:05
NLP
Read more
莫比乌斯召回系统介绍

当前召回系统只能召回相关性高的广告，但不能保证该广告变现能力强。莫比乌斯做了如下两点创新：
2023-09-11 02:34:28
搜广推
Read more
旋转位置编码

旋转位置编码具有良好的外推性，即模型在预测时可以处理比训练时更长的序列。
2023-09-04 02:32:52
NLP
Read more

/18