这篇论文《ROUND AND ROUND WE GO! WHAT MAKES ROTARY POSITIONAL ENCODINGS USEFUL?》对RoPE(旋转式位置编码)的远程衰减机制进行了详细的实验探讨。传统观点认为,RoPE 的主要作用是增强随距离增加的依赖衰减,然而作者通过实验挑战了这一认知,指出远程衰减性并非必然存在,尤其在Q、K矩阵的初始分布为均值为0的高斯分布时,这种衰减效应消失。
知识蒸馏是一种通过大规模模型(teacher model)指导小规模模型(student model)训练的方法,其目的是通过交互两个模型的logits来优化student模型,而不是简单地使用答案。重要的是,teacher和student模型的vocab size必须一致。本文讨论了几种不同的知识蒸馏方式,特别是在论文《On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes》中对on-policy和off-policy两类蒸馏方法的分类。