下面是一些参数高效的微调大模型方法:
-
布隆过滤器误判率计算
记录一下布隆过滤器误判率的计算过程:
-
InstructGPT
ChatGPT背后的技术原理:
-
Transformer输入长度受限的改进方案
汇总一下解决Transformer输入长度受限这一问题的相关工作:
-
古诗句
记录一些古诗:
-
Knowledge Distillation
知识蒸馏是将训练好的大模型包含的知识蒸馏到小模型中。在线上部署的时候,我们使用小模型即可。
-
GAN,VAE,Diffusion对比
对比下三种主流图片生成模型的优缺点:
-
SRU解读
该篇论文实现了隐藏层维度的并行计算,但并没有解除时间步上的依赖。不过这样的改进,在模型训练和推理加速上的收益已经非常大了。
-
扩散原理详解与实战
学习一下扩散模型的数学原理。
-
古代万物称呼究竟可以有多美?
古代万物称呼究竟可以有多美?