Swift's Blog
HOME
ARCHIVES
TAGS
CATEGORIES
LINKS
ABOUT
HOME
ARCHIVES
TAGS
CATEGORIES
LINKS
ABOUT
NTK-Aware Interpolation
Swift
Lv6
2024-04-30 02:14:41
2024-04-30 02:14:41
NLP
LLM
长度外推
RoPE
主要思路:高频外推,低频内插。
NTK的优点是不用微调的情况下,能比线性插值做得好。但是由于低频部分还是会有部分被外推到超出范围的值,因此在设定系数的时候,要比需要的设得更大才行。
参考
大模型处理长上下文方法一览
详解基于调整RoPE旋转角度的大模型长度外推方法
LLM
长度外推
RoPE
FP16与BF16区别
Prev posts
GEMM优化
Next posts
1.
参考
1.
参考