10月 AGI技术月报上篇

用户8190

2024年10月29日修改

浅谈ROPE位置编码模式下，q、k的分布（均值与方差）对注意力远程衰减的影响​

https://zhuanlan.zhihu.com/p/975380493

这篇论文《ROUND AND ROUND WE GO! WHAT MAKES ROTARY POSITIONAL ENCODINGS USEFUL?》对RoPE（旋转式位置编码）的远程衰减机制进行了详细的实验探讨。传统观点认为，RoPE 的主要作用是增强随距离增加的依赖衰减，然而作者通过实验挑战了这一认知，指出远程衰减性并非必然存在，尤其在Q、K矩阵的初始分布为均值为0的高斯分布时，这种衰减效应消失。​

实验部分探讨了不同的初始化条件下RoPE的表现，尤其针对Q、K矩阵的均值和方差的影响。主要发现如下：​

1.
均值影响：当Q、K的均值同向且绝对值较大时，注意力远程衰减效应明显；反之，均值接近0或异向时，衰减效应减弱甚至消失。此外，均值异向（一个大于0，一个小于0）时，甚至观察到远程增加的注意力性质。​

2.
方差影响：方差越大，远程衰减越弱，方差越小，衰减越显著。这暗示在模型初始化时应控制方差值以获得更好的远程衰减效果，如GPT-2系列中对参数方差的设置较小（如0.02）。​

这些实验表明，RoPE下的注意力远程衰减性质与Q、K矩阵的分布密切相关。不同的初始化均值和方差可以导致不同层和注意力头对局部或全局信息的关注程度。这可能解释了在大模型中，不同层的RoPE编码具有不同的远程衰减特性。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

大模型LLM知识蒸馏代码讲解与训练

https://zhuanlan.zhihu.com/p/1064724364

知识蒸馏是一种通过大规模模型（teacher model）指导小规模模型（student model）训练的方法，其目的是通过交互两个模型的logits来优化student模型，而不是简单地使用答案。重要的是，teacher和student模型的vocab size必须一致。本文讨论了几种不同的知识蒸馏方式，特别是在论文《On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes》中对on-policy和off-policy两类蒸馏方法的分类。​

知识蒸馏的主要方法包括：

1.
Supervised KD：使用训练数据的output作为答案，将prompt和output拼接后输入模型。teacher和student模型在相同维度上生成logits，并计算两者之间的散度损失，常用的是Jensen-Shannon Divergence (JSD)。​

2.
SeqKD：仅使用prompt，teacher模型生成output后进行训练。student模型使用teacher模型生成的output进行训练，其过程类似于Supervised KD。​

3.
GKD (Generalized Knowledge Distillation)：student模型通过生成自己的output进行训练，这是一种on-policy方法，模型每次更新后生成新的output，并将其反馈回训练过程中。​

在实现方面，GKDTrainer继承自SFTTrainer，而SFTTrainer又继承自Trainer。以下是各自的实现细节：​

1.
Trainer：标准的Trainer要求用户手动处理数据，将prompt与output拼接，并定义输入数据的格式为["input_ids", "labels", "attention_mask"]。​

2.
SFTTrainer：SFTTrainer对Trainer进行了封装，自动处理数据拼接，简化了用户操作，返回的数据格式与Trainer一致。​

3.
GKDTrainer：GKDTrainer的输入要求更加复杂，包括一个“messages”列表，通常包含role和content字段，用于模拟对话形式的数据输入。​

在GKD的训练过程中，最关键的部分是计算student和teacher模型logits之间的散度损失。常见的损失函数包括KL散度和JSD散度：​

•
KL散度 (KLD)：用于衡量两个分布之间的差异，计算两个模型的logits差异。​

•
JSD散度 (Jensen-Shannon Divergence)：基于KL散度的改进版本，具有更平滑和对称的特点，广泛用于知识蒸馏的损失计算中。​

JSD的计算涉及温度缩放、log softmax转换等步骤，并通过torch.kl_div函数来计算KL散度，进而得到JSD。​

训练过程中的关键参数包括：

•
lambda：在Supervised KD与GKD之间的权重平衡，范围为[0,1]。​

•
beta：控制KLD与JSD的权重，范围为[0,1]。​

•
seq_kd：是否启用SeqKD方法。​

本文还展示了一个基于trl的代码实现，并结合deepspeed进行训练。实验以deepseek模型为例，使用deepseek 7b作为student模型，deepseek 33b作为teacher模型，通过调整lambda和beta进行混合蒸馏训练。实验结果显示，学生模型的性能高度依赖于教师模型的质量。未经微调的教师模型导致学生模型效果不佳，但当教师模型经过SFT微调后，学生模型的性能显著提升。​

50%

深度学习编译器 TVM 代码串讲

https://zhuanlan.zhihu.com/p/446976730

随着深度学习的广泛应用，如何高效地在不同设备上运行深度学习模型成为一个关键问题。传统方法依赖专家手动优化特定设备的算子，比如Nvidia的TensorRT，但在面对用户自定义算子或特殊网络结构时，这些方法存在局限性。深度学习编译器TVM提供了一种新的思路，通过对整个计算图进行优化并自动生成适配不同设备的代码。本文详细解读了TVM的工作机制，包括编译流程、代码结构以及运行时的实现细节。​

TVM接收来自TensorFlow、PyTorch等框架的高层次模型，转换为Graph IR，并对其进行图层级别的优化。每个算子使用TVM定义的DSL“Tensor Expression”来描述，这种方式源于Halide的计算与调度分离思想。TVM通过机器学习优化器自动寻找最优的调度方式，最终生成低层次的LLVM IR，之后利用传统编译器完成编译。​

运行时方面，TVM通过简化的C API管理模块和函数，允许通过PackedFunc调用编译后的算子。TVM采用了一种称为FFI的机制，使得跨语言的函数调用成为可能。此外，TVM的数据结构通过继承Object类实现序列化、格式化和Python绑定。​

TVM的编译流程涵盖从高层次的Relay IR到低层次的TIR的转换，经过图优化、调度生成、内存规划等步骤，最终生成适用于不同硬件设备的代码。TVM还提供了丰富的模式匹配和重写机制，便于开发者编写Pass来优化图结构。​

TVM的核心特性之一是其支持多种硬件设备的调度与代码生成，允许通过AutoTVM和Ansor等自动调优工具找到最优的执行方式，进一步提升了模型的性能表现。​

50%

高阶体系结构自学大纲

https://zhuanlan.zhihu.com/p/1053997997

该学习路径主要面向CPU设计，分为不同阶段，涵盖微架构、乱序执行、多核架构以及IC设计的内容。学习过程中不要求严格按顺序，可根据自身需求和兴趣进行调整，提供了广泛的资源和工具。​

体系结构入门： 微架构：基于RISC-V架构的RV64GC核心，支持IMACFA指令集，搭配MSU特权模式和AXI4总线协议（带突发传输）。关键组件包括TLB、无阻塞Cache、Tournament分支预测单元（BPU）。 性能优化：利用硬件计数器提升Coremark基准测试的跑分，目标是Coremark IPC ≥ 0.6，频率达到100MHz以上。 外设支持：包括CLINT、PLIC和UART等外设，确保系统能够处理中断和通信。 对齐设计：从功能模型和性能模型两个角度优化设计，确保准确对齐。 软件测试：涵盖riscv-tests、cpu-tests、coremark、dhrystone、microbench，以及RT-thread和Linux等操作系统的移植与测试。测试工具包括Verilator、VCS、Design Compiler（DC）和FPGA验证。​

50%

10月 AGI技术月报 上篇​

10月 AGI技术月报上篇