常见的LLM推理加速解决方案
Swift Lv6
  • KV Cache:用空间换时间
    • 当decoder输入序列是 $t_1, t_2, \dots, t_n$ 时,预测$t_{n+1}$,只需利用到 $q^n$ 以及历史所有的 $k^i, v^i, i \in \{1,\dots,n \}$ :无须冗余attention计算 $h_1, \dots, h_{n-1}$ 以及 qkv映射 $q_1=W_q(t_1), k_1=W_k(t_1), k_1=W_v(t_1), \dots, q_{n-1}=W_q(t_{n-1}), k_1=W_k(t_{n-1}), k_1=W_v(t_{n-1})$

参考

Powered by Hexo & Theme Keep
Unique Visitor Page View