输入“/”快速插入内容

8月 AGI技术月报 下篇

2024年9月13日修改
阿里发布开源多模态模型Qwen2-VL
阿里巴巴新发布的Qwen2-VL多模态模型在图像和长视频理解任务中表现卓越,达到了SOTA(最先进技术)水平,甚至在大部分指标上超过了GPT-4o等闭源模型。
Qwen2-VL具备强大的多模态能力,能够实时读取摄像头或电脑屏幕进行文字形式的视频对话,还能作为Agent与环境进行互动,操作机械臂或手机等设备。此次发布的Qwen2系列包括2B、7B和72B三个版本,2B和7B版本已经开放下载并支持免费商用,72B版本通过API提供服务。
在实际应用中,Qwen2-VL展现了多种能力,如识别花卉种类、提取多语言文本、解读复杂数学公式等。在视频处理方面,Qwen2-VL最长可以分析20分钟以上的视频内容,支持总结与细节提问。模型的多模态推理能力也非常强大,能够解决代码和数学问题。
Qwen2-VL在架构上引入了多项创新,如支持动态分辨率的图像输入和多模态旋转位置嵌入(M-ROPE),进一步增强了模型的多模态处理能力。整体而言,Qwen2-VL在多语言、多场景的测试中表现优异,展现了超越GPT-4o和Claude3.5-Sonnet的综合实力。
50%
50%
最前沿——基础模型和多模态交互(1):单义之韵的放大——挖掘 Claude 3 Sonnet 的内在精髓
稀疏自编码器的应用:稀疏自编码器通过将模型的激活分解为更易解释的部分,从而提取出具有单一语义的特征。这些特征能在多个抽象概念和具体实例中泛化,例如涉及名人、城市、编程错误等多种特征。
特征与模型行为的关系:研究表明,这些提取出的特征不仅能解释模型的语义表示,还能通过特征控制(Feature Steering)实验直接影响模型的行为。例如,通过调整特征的激活值,可以引导模型生成特定类型的输出,这为理解和干预模型行为提供了新的方法。
技术挑战与扩展性:在更大规模的模型上应用稀疏自编码器面临计算资源的挑战。研究发现,特征的提取和解释依赖于模型的规模和特征的复杂性。此外,特征之间的交叉层重叠问题(cross-layer superposition)对模型的解码过程带来挑战,需进一步研究解决。
特征的多样性与可解释性:研究揭示了大量丰富多样的特征,从简单的地理位置到复杂的代码错误检测。这些特征在不同语言和模态下表现出一致性,证明了特征的广泛性和深度。
50%
50%
推理时拆分大Batch以重叠SDPA和Linear,可能更快
文章分析了在不同硬件配置下,利用线性计算与Scaled Dot Product Attention (SDPA) 计算的访存与计算负载的分布,以期在推理过程中实现更高的效率。
以Llama-3.1-8B模型为例,作者假设参数和KV Cache均为8bit量化,并忽略了除了线性计算和SDPA之外的其他开销。在实际推理过程中,线性计算和SDPA分别表现出计算受限和访存受限的特性。通过将batch拆分成两部分并交替执行线性计算和SDPA,理论上可以缩短推理时间。具体计算显示,在理想情况下,总耗时可以减少到0.019531秒。
此外,文章还讨论了更复杂的场景,例如在H100计算卡上执行1024 token的推理任务,以及在8卡系统上推理Llama-3.1-70B模型时的情况。通过这些讨论,作者指出了当访存带宽与计算能力不平衡时,简单的重叠策略效果有限,可能需要更激进的优化手段如chunked prefill或更大的模型。
最后,文章还提出了一种更复杂的并行计算方法,即在两张显卡之间分配奇偶层的Linear参数和KV Cache,来进一步优化资源利用率。这种方法虽然增加了通信开销,但有可能通过提高计算与访存的重叠程度来弥补这一点。
50%
50%
大模型在小爱同学应用实践
大模型意图分发
意图分发是将用户的查询(query)分发到相应的垂直领域模型(agent)进行深入理解。该环节面临两个挑战:一是模型需要具备相关知识,二是要在200ms内完成意图分发。为此,小米尝试了使用大模型的Prompt Engineering,但效果有限,最终通过微调大模型,提升了中长尾query的理解能力。
大模型垂域意图理解
在垂域意图理解中,小爱同学采用了Function Calling的方式,借助大模型对API进行调用和参数识别。关键挑战在于确保大模型100%遵循指令,并优化推理效率。为解决推理耗时问题,小米采用了类似LLMCompiler的并行执行方式,并通过大模型微调和推理优化,提升了多轮query的满足率。
大模型回复生成
大模型在生成回复时,面临时效性、长上下文理解、以及指令遵循等挑战。小米通过RAG(检索增强生成)技术外挂知识库,并结合大模型的微调,提升了回复的精准性和用户体验。具体步骤包括单能力数据优化、数据混合训练、以及偏好数据构建。未来,小米探索使用多模态大模型实现端到端理解,但目前仍采用分而治之的框架。
50%
50%
LLM 系列超详细解读 (十一):大语言模型中的超大激活值
位置与性质:超大激活值在LLM中的特定层和特征维度中出现,通常在模型的早期层出现,并在后期减少。这些激活值虽然数量极少,但在模型计算中至关重要,类似于固定的偏置项。
功能与影响:超大激活值在自注意力机制(Self-Attention)中显著影响注意力的分布,集中在相关的tokens上,形成隐式的偏置项。作者通过干预实验表明,设置这些激活值为零会导致模型性能严重下降,而将其设置为均值则不会显著影响性能,这进一步证明了其作为偏置项的功能。
与异常特征的区别:超大激活值与LLM中的异常特征不同,它们在channel维度上不重叠,并且超大激活值是标量而非向量。
50%
50%