• DPO讲解

    PPO算法的pipeline冗长,涉及模型多,资源消耗大,且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法,去掉了RW训练和RL环节,只需要加载一个推理模型和一个训练模型,直接在偏好数据上进行训练即可:

    DPO

  • PLE讲解

    https://github.com/datawhalechina/fun-rec/blob/master/docs/ch02/ch2.2/ch2.2.5/PLE.md
  • RLHF讲解

    RLHF包含了两个至关重要的步骤:

    1. 训练Reward Model
    2. 用Reward Model和SFT Model构造Reward Function,基于PPO算法来训练LLM
      1. frozen RM
      2. frozen SFT Model
      3. Actor $\pi_{\Phi}^{R L}$ initialized from SFT Model
      4. Critic $V_\eta$ initialized from RM

    最大化目标函数:

  • LLaMA2与LoRA结构详解

    llama模型结构如下:

  • Self-Instruct

    本篇工作利用LLM的生成能力,来产生大量指令数据集(指令、输入、输出),无需人工标注数据。

  • 召回和排序的样本构造问题

    简单介绍一下搜广推系统中的正负样本构造问题。

  • KV Cache

    大模型推理加速的一个常用技术是KV Cache,在不牺牲任何计算精度的前提下,通过空间换时间,提高推理性能。注意,这里的Cache概念非常简单,跟浏览器缓存、CPU缓存不是一个概念。

  • Multi Query Attention & Group Query Attention

    Multi Query Attention(MQA)在2019年就被提出来了,用于推理加速,但在当时并没有受到很多关注,毕竟一张2080就能跑Bert-base了。随着LLM的大火,MQA所带来的收益得以放大。

  • 莫比乌斯召回系统介绍

    当前召回系统只能召回相关性高的广告,但不能保证该广告变现能力强。莫比乌斯做了如下两点创新:

  • 旋转位置编码

    旋转位置编码具有良好的外推性,即模型在预测时可以处理比训练时更长的序列。

/18