• 模型量化入门

    量化已经是LLM部署和推理的必备环节了,在此了解一下:

  • top命令

    在linux运维中,经常用到 top 命令,详细介绍一下:

    top

  • alfred自定义谷歌翻译workflow

    如果要实现自定义workflow,则必须安装付费版的alfred,囊中羞涩的话可以自行淘宝。自定义步骤如下:

  • LLM微调过程中灾难性遗忘问题解决方法

    灾难性遗忘是LLM微调过程中最常见的问题,下面是一些解决办法:

  • Win11+Docker搭建CUDA开发环境

    最近入门了CUDA编程,先记录下搭建环境过程。

  • DPO讲解

    PPO算法的pipeline冗长,涉及模型多,资源消耗大,且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法,去掉了RW训练和RL环节,只需要加载一个推理模型和一个训练模型,直接在偏好数据上进行训练即可:

    DPO

  • PLE讲解

    https://github.com/datawhalechina/fun-rec/blob/master/docs/ch02/ch2.2/ch2.2.5/PLE.md
  • RLHF讲解

    RLHF包含了两个至关重要的步骤:

    1. 训练Reward Model
    2. 用Reward Model和SFT Model构造Reward Function,基于PPO算法来训练LLM
      1. frozen RM
      2. frozen SFT Model
      3. Actor $\pi_{\Phi}^{R L}$ initialized from SFT Model
      4. Critic $V_\eta$ initialized from RM

    最大化目标函数:

  • LLaMA2与LoRA结构详解

    llama模型结构如下:

  • Self-Instruct

    本篇工作利用LLM的生成能力,来产生大量指令数据集(指令、输入、输出),无需人工标注数据。

/20