输入“/”快速插入内容

8月 AGI技术月报下篇

2024年9月13日修改

阿里发布开源多模态模型Qwen2-VL

https://mp.weixin.qq.com/s/42M913ulJ_P3E8-CYeqrsA

阿里巴巴新发布的Qwen2-VL多模态模型在图像和长视频理解任务中表现卓越，达到了SOTA（最先进技术）水平，甚至在大部分指标上超过了GPT-4o等闭源模型。​

Qwen2-VL具备强大的多模态能力，能够实时读取摄像头或电脑屏幕进行文字形式的视频对话，还能作为Agent与环境进行互动，操作机械臂或手机等设备。此次发布的Qwen2系列包括2B、7B和72B三个版本，2B和7B版本已经开放下载并支持免费商用，72B版本通过API提供服务。​

在实际应用中，Qwen2-VL展现了多种能力，如识别花卉种类、提取多语言文本、解读复杂数学公式等。在视频处理方面，Qwen2-VL最长可以分析20分钟以上的视频内容，支持总结与细节提问。模型的多模态推理能力也非常强大，能够解决代码和数学问题。​

Qwen2-VL在架构上引入了多项创新，如支持动态分辨率的图像输入和多模态旋转位置嵌入（M-ROPE），进一步增强了模型的多模态处理能力。整体而言，Qwen2-VL在多语言、多场景的测试中表现优异，展现了超越GPT-4o和Claude3.5-Sonnet的综合实力。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

最前沿——基础模型和多模态交互（1）：单义之韵的放大——挖掘 Claude 3 Sonnet 的内在精髓​

https://zhuanlan.zhihu.com/p/717161553?utm_psn=1812561658918359040

稀疏自编码器的应用：稀疏自编码器通过将模型的激活分解为更易解释的部分，从而提取出具有单一语义的特征。这些特征能在多个抽象概念和具体实例中泛化，例如涉及名人、城市、编程错误等多种特征。​

特征与模型行为的关系：研究表明，这些提取出的特征不仅能解释模型的语义表示，还能通过特征控制（Feature Steering）实验直接影响模型的行为。例如，通过调整特征的激活值，可以引导模型生成特定类型的输出，这为理解和干预模型行为提供了新的方法。​

技术挑战与扩展性：在更大规模的模型上应用稀疏自编码器面临计算资源的挑战。研究发现，特征的提取和解释依赖于模型的规模和特征的复杂性。此外，特征之间的交叉层重叠问题（cross-layer superposition）对模型的解码过程带来挑战，需进一步研究解决。​

特征的多样性与可解释性：研究揭示了大量丰富多样的特征，从简单的地理位置到复杂的代码错误检测。这些特征在不同语言和模态下表现出一致性，证明了特征的广泛性和深度。​

50%

推理时拆分大Batch以重叠SDPA和Linear，可能更快

https://zhuanlan.zhihu.com/p/716205919?utm_psn=1812553687295483904

文章分析了在不同硬件配置下，利用线性计算与Scaled Dot Product Attention (SDPA) 计算的访存与计算负载的分布，以期在推理过程中实现更高的效率。​

以Llama-3.1-8B模型为例，作者假设参数和KV Cache均为8bit量化，并忽略了除了线性计算和SDPA之外的其他开销。在实际推理过程中，线性计算和SDPA分别表现出计算受限和访存受限的特性。通过将batch拆分成两部分并交替执行线性计算和SDPA，理论上可以缩短推理时间。具体计算显示，在理想情况下，总耗时可以减少到0.019531秒。​

此外，文章还讨论了更复杂的场景，例如在H100计算卡上执行1024 token的推理任务，以及在8卡系统上推理Llama-3.1-70B模型时的情况。通过这些讨论，作者指出了当访存带宽与计算能力不平衡时，简单的重叠策略效果有限，可能需要更激进的优化手段如chunked prefill或更大的模型。​

最后，文章还提出了一种更复杂的并行计算方法，即在两张显卡之间分配奇偶层的Linear参数和KV Cache，来进一步优化资源利用率。这种方法虽然增加了通信开销，但有可能通过提高计算与访存的重叠程度来弥补这一点。​

50%

大模型在小爱同学应用实践

https://zhuanlan.zhihu.com/p/717208684?utm_psn=1812555970498400258

大模型意图分发

意图分发是将用户的查询（query）分发到相应的垂直领域模型（agent）进行深入理解。该环节面临两个挑战：一是模型需要具备相关知识，二是要在200ms内完成意图分发。为此，小米尝试了使用大模型的Prompt Engineering，但效果有限，最终通过微调大模型，提升了中长尾query的理解能力。​

大模型垂域意图理解

在垂域意图理解中，小爱同学采用了Function Calling的方式，借助大模型对API进行调用和参数识别。关键挑战在于确保大模型100%遵循指令，并优化推理效率。为解决推理耗时问题，小米采用了类似LLMCompiler的并行执行方式，并通过大模型微调和推理优化，提升了多轮query的满足率。​

大模型回复生成

大模型在生成回复时，面临时效性、长上下文理解、以及指令遵循等挑战。小米通过RAG（检索增强生成）技术外挂知识库，并结合大模型的微调，提升了回复的精准性和用户体验。具体步骤包括单能力数据优化、数据混合训练、以及偏好数据构建。未来，小米探索使用多模态大模型实现端到端理解，但目前仍采用分而治之的框架。​

50%

LLM 系列超详细解读 (十一)：大语言模型中的超大激活值

https://zhuanlan.zhihu.com/p/689959264?utm_psn=1812555287237885952

位置与性质：超大激活值在LLM中的特定层和特征维度中出现，通常在模型的早期层出现，并在后期减少。这些激活值虽然数量极少，但在模型计算中至关重要，类似于固定的偏置项。​

功能与影响：超大激活值在自注意力机制（Self-Attention）中显著影响注意力的分布，集中在相关的tokens上，形成隐式的偏置项。作者通过干预实验表明，设置这些激活值为零会导致模型性能严重下降，而将其设置为均值则不会显著影响性能，这进一步证明了其作为偏置项的功能。​

与异常特征的区别：超大激活值与LLM中的异常特征不同，它们在channel维度上不重叠，并且超大激活值是标量而非向量。​

50%

8月 AGI技术月报 下篇​

8月 AGI技术月报下篇