呆板之心PRO · 会员通信 Week 04--- 本周为你解读 ③个值得细品的 AI Robotics 业内要事 ---1. 与其推翻 Transformer,不如专一改进 Attention?为什么 Transformer 不会是 AGI 的终极版本?Attention 的范围引出了哪些改进道路?传统 Attention 变体被优化到什么水平了?联合线性 Attention 的架构上风更显明吗?Titans 无机会接替 Transformer 吗?...2. 年夜厂、AR 厂商们扎堆 AI 眼镜产物,仅为了数据积聚能活到下一轮吗?CES 2025 上爆火、年夜厂排队入局...AI 眼镜赛道情形怎样?AI 眼镜比拟其余 AI 硬件,有哪些自然的上风?为什么数据对 AI 眼镜厂商存眷的中心?现在市道上热点的 AI 眼镜产物都有哪些异同?为什么说 AI 眼镜产物仅处于「合格」状况?差在哪?......本期完全版通信含 2 项专题解读 + 29 项本周 AI Robotics 赛道要事速递,此中技巧方面 7 项,海内方面 12 项,外洋方面 10 项。本期通信总计 20328 字,可收费试读至 7% 耗费 99 微信豆即可兑换完全本期解读(约合国民币 9.9 元) 要事解读① 与其推翻Transformer,不如专一改进 Attention?弁言:Transformer 架构自 2017 年被提出以来,基于 Attention 机制的上风敏捷突起,并成为 LLM 的主流架构。但是,盘算本钱跟 KV 缓存成绩等范围让业内以为原始的 Transformer 不会是 AGI 的终极版本,因此出现出大批对 Attention 的改进、近似以致调换任务,且热度越来越高。调换 Transformer 不如 爆改 Attention?深度进修范畴缭绕着怎样改良 Transformer 架构的探讨从未停歇。此前,很多研讨者试图寻觅可能完整替换 Transformer 的新架构,以处理其在盘算效力跟内存占用方面的范围性。但是,跟着研讨的深刻,持续应用Transformer但改良留神力机制(Attention Mechanism)的做法又开端升温。1、跟着模子范围的扩展跟利用场景的庞杂化,Transformer 的范围性一直浮现,这些缺点促使研讨者们一直摸索新的改良偏向① Transformer 最显明范围在于 Attention 机制的二次方的庞杂度带来的盘算本钱,其须要盘算每个词与其余全部词的留神力权重,招致时光庞杂度为 O(n²),序列长度增添时盘算本钱急剧回升。② KV 缓存成绩同样显明,为了减速推理,Transformer 须要缓存每个词的 Key 跟 Value,这在处置长序列时会占用大批内存,空间庞杂度为 O(n)。③ Transformer 还存在留神力疏散的成绩,在长序列中,全局留神力机制可能使主要信息被浓缩,招致模子难以聚焦要害信息。④ 因为 Transformer 依附额定的地位编码来懂得词序,但在处置特殊长的序列时,地位编码的牢靠性会降落。⑤ 别的,Transformer 逐词天生的机制招致了练习跟推理纷歧致成绩。2、浩繁范围激发的共鸣是,原始的 Transformer 不会是 AGI 的终极版本,但这些范围引出了很多改良任务。3、因为 Attention 机制被普遍以为是 Transformer 胜利的要害,因而很多研讨都会合在怎样改良自留神力机制,以进步其效力跟后果。[1-2] [1-1]① 第一种是基于传统 Softmax Attention 的各种改良跟变种,涵盖 MHA、MQA、GQA 等。② 第二种是以 RetNet、GLA 跟 Lightning Attention 等任务为代表的 Linear Attention 道路。这些方式经由过程数学变更将盘算庞杂度从二次方降到线性(O(n)),同时基础保存了原有的模子表示。③ 在试图下降 Attention 二次方庞杂度至线性庞杂度的任务中,还衍生了 Mamba 为代表的态空间模子跟以 DeltaNet 为代表的在线进修等道路。④ 另有相似如 MiniMax-01 的任务实验联合 Softmax Attention 跟 Linear Attention 的,用混杂架构施展两种机制的上风。由 Softmax Attention 衍生的最新变体有什么特色?在天然言语处置(NLP)范畴,Softmax Attention 机制及其变体已成为晋升模子机能跟效力的要害技巧。但是,跟着模子范围的扩展跟义务庞杂度的晋升,Softmax Attention 的时光庞杂度为 O(n²)的范围性逐步浮现。这促使研讨者们提出了多种变体,以优化 Softmax Attention 的机能跟效力。