训练大模型,终于可以“既要又要还要”了

三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的「石器时代」中,为后世留下了变革的火种。近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。如今,后发优势再一次来到了大洋此岸,...

华为+DeepSeek,终于不再“服务器繁忙”?

没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀起狂澜。然而主流的MoE架构大模型,却苦于其结构上的“先天不足”:巨大的硬件成本与多重拖累效率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算...
  • 1
  • 共 1 页