SRU解读
Swift Lv6

该篇论文实现了隐藏层维度的并行计算,但并没有解除时间步上的依赖。不过这样的改进,在模型训练和推理加速上的收益已经非常大了。

笔记见:https://kdocs.cn/l/cbNfimpPLCvc


参考

Powered by Hexo & Theme Keep
Unique Visitor Page View