大模型融合方法-DARE
Swift Lv6

LLM在SFT之后会产生大量的冗余参数(delta参数),阿里团队提出DARE方法来消除delta参数,并将其合并到PRE模型中,从而实现多源模型能力的吸收。

DARE无需GPU重新训练,其思路非常简单,就跟dropout类似:

两个步骤:

  1. drop:随机mask参数为0
  2. rescale:对保存的参数rescale,这样可以保证神经元期望值不变:$E_{not_{mask}}=x,E_{mask}=\frac{p*x}{p}$

传统的模型融合只是对神经元进行加权求和,这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。

多源模型融合

流程图:

procedure

实验结果

result


参考

Powered by Hexo & Theme Keep
Unique Visitor Page View