SRU解读
该篇论文实现了隐藏层维度的并行计算,但并没有解除时间步上的依赖。不过这样的改进,在模型训练和推理加速上的收益已经非常大了。
笔记见:https://kdocs.cn/l/cbNfimpPLCvc
该篇论文实现了隐藏层维度的并行计算,但并没有解除时间步上的依赖。不过这样的改进,在模型训练和推理加速上的收益已经非常大了。
笔记见:https://kdocs.cn/l/cbNfimpPLCvc