Swift's Blog

PEFT

下面是一些参数高效的微调大模型方法：
2023-07-18 23:57:18
NLP
LLM

PEFT
Read more
布隆过滤器误判率计算

记录一下布隆过滤器误判率的计算过程：
2023-07-12 23:40:20
Machine Learning
Bloom Filter
Read more
InstructGPT

ChatGPT背后的技术原理：
2023-07-09 02:46:42
Machine Learning
LLM

GPT

Reinforcement Learning

PPO
Read more
Transformer输入长度受限的改进方案

汇总一下解决Transformer输入长度受限这一问题的相关工作：
2023-07-07 01:54:59
NLP
Transformer

Paper Reading
Read more
古诗句

记录一些古诗：
2023-07-02 14:55:43
随笔
古诗
Read more
Knowledge Distillation

知识蒸馏是将训练好的大模型包含的知识蒸馏到小模型中。在线上部署的时候，我们使用小模型即可。
2023-06-26 00:49:54
Machine Learning
Softmax

模型压缩

温度
Read more
GAN,VAE,Diffusion对比

对比下三种主流图片生成模型的优缺点：
2023-06-24 17:11:47
Machine Learning
Image Generation
Read more
SRU解读

该篇论文实现了隐藏层维度的并行计算，但并没有解除时间步上的依赖。不过这样的改进，在模型训练和推理加速上的收益已经非常大了。
2023-06-15 02:30:21
NLP
Paper Reading

RNN

Parallelizing
Read more
扩散原理详解与实战

学习一下扩散模型的数学原理。
2023-05-15 00:45:15
Algorithm
PyTorch

Diffusion
Read more
古代万物称呼究竟可以有多美？

古代万物称呼究竟可以有多美？
2023-04-27 01:51:16
随笔
文学
Read more

/23