
华为的三个黑科技,要颠覆AI计算?

没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀起狂澜。
然而主流的MoE架构大模型,却苦于其结构上的“先天不足”:巨大的硬件成本与多重拖累效率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。
作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深厚积累,为DeepSeek显著提升了效率及用户体验。
山就在那里,但中国企业找到了不一样的登顶之路。
近期,环球财经网将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技术,通过一连串的技术报告,首次全面披露技术细节。
希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的开放协作生态环境,让昇腾生态在中国茁壮成长。
《华为技术披露集》系列 VOL.5 :昇腾亲和
算子是 AI 大模型执行计算的 “原子级工具”,如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。
它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制,让芯片处理海量数据时如虎添翼。而昇腾此次开源的三大技术,正是算子优化的 “终极形态”。
AMLA × 融合算子 × SMTurbo
让大模型推理速度与能效双重革命
基于昇腾算力,华为团队本次发布了三项重要的硬件亲和算子技术研究:
AMLA:用“数学魔法”重构浮点运算,让昇腾芯片的算力利用率突破 70%。
融合算子优化:像指挥交响乐团一样调度硬件资源,让计算与通信 “无缝协奏”。
SMTurbo:打造内存访问的 “高速公路”,跨 384 卡延迟低至亚微秒级。
技术全景:
三大黑科技如何颠覆 AI 计算?
AMLA:以加代乘的“魔法”让芯片算力利用率飙升
“数字炼金术”:对二进制表示重解析,将复杂乘法转换为加法运算,充分利用存内算力,算力利用率飙升至 71%。
针对Decode阶段的MLA计算,华为团队提出了AMLA(Ascend MLA)算子,通过数学等价变化和硬件亲和的深度优化,释放昇腾芯片澎湃算力。
具体而言,通过对浮点数二进制编码的重解析,把复杂的乘法运算变成简单的加法操作,AMLA实现了基于存内计算的变量更新,充分利用算力的同时减少数据搬运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。
当前AMLA算法的Attention 算子充分发挥昇腾硬件的计算能力,平均算力利用率达到55%,最高可达71%,优于FlashMLA公开的结果。
融合算子优化:硬件资源的 “交响乐指挥家”
将多个算子合而为一,让计算、通信、存储 “三重协奏”。
基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验,华为团队提炼出三大昇腾算子融合设计原理:硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。
首先,利用昇腾芯片的多硬件单元并行的能力,将跨硬件单元串行算子融合为复合算子,通过指令级流水编排实现计算耗时相互掩盖。
其次,对串行向量算子实施融合处理,构建全局内存与计算单元缓存的直通数据通道,使中间结果全程驻留高速缓存。
最后,华为团队运用数学等价关系解耦算子间数据依赖,重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。
SMTurbo:384 卡内存共享的 “超低延迟高速公路”
昇腾原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代。
华为CloudMatrix 384支持384卡规模原生Load/Store语义。因其低延迟、上下文切换代价小、可细粒度流水等优势,受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求,成为稀疏模型推理的关键能力。
面向原生Load/Store内存语义通信提供软硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将Load/Store在读和写两个方向上并行,发挥了昇腾芯片读写分离的微架构优势。
针对数据保序场景下的同步开销问题,引入了批处理与中转机制,降低了控制逻辑的开销。在跨机访存通信场景下,方案可以提升CloudMatrix 384中昇腾芯片每线程的访存吞吐20%以上。
如上,在提到的三个算子层面优化技术的未来发展上:
针对AMLA,将研究仅KVCache 量化和全量化场景的MLA 算子优化,进一步扩展算子应用场景。
针对融合算子优化,将进一步探索融合算子在更多模型架构上的应用,推动大语言模型在昇腾硬件上的高效推理与广泛应用。
针对Load/Store的优化技术,将结合业务设计精巧的流水实现,平衡读写平面的负载分担,将CPP 思想引入Deepseek dispatch 与combine 场景,在大BatchSize下取得实际收益。
本内容为作者独立观点,不代表环球财经网立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com