在当前生成式人工智能(AI)技术蓬勃发展的背景下,GPU作为加速新技术浪潮的核心部件,正扮演着至关重要的角色。摩尔线程创始人兼CEO张建中认为,当前正处于生成式AI的黄金时期,而GPU则是推动这一技术进步的创新引擎。
自从大模型问世以来,随着诸如OpenAI的ChatGPT-4等超大规模模型的出现,GPU的需求量呈现爆炸式增长。例如,ChatGPT-4拥有1.8万亿参数,其一次训练就需要在大约25000个A100 GPU上运行90到100天之久。这不仅反映了大模型对于算力需求的巨大,也揭示了高性能计算资源对于实现先进技术的重要作用。
目前,基础大模型的竞争仍在继续,各大科技企业持续采购算力资源以保持竞争力。从趋势来看,大模型对算力的要求越来越高。一方面,“Scaling Law”表明,只有具备足够大的单点规模且通用的算力平台,才能迅速跟进技术的进步;另一方面,除了传统的Transformer架构外,诸如Mamba、RWKV和RetNet等新兴架构同样需要更高性能的计算资源来支撑。
在此背景下,摩尔线程认为,万卡级别的计算集群已成为AI模型训练的主流配置。随着计算量的不断增加,大模型训练急需一个“大且通用”的加速计算平台来缩短训练周期,促进模型能力的快速迭代。科技巨头们正通过部署千卡乃至超万卡规模的计算集群来确保其大模型产品的竞争力,这意味着万卡甚至超万卡集群已经成为新一轮大模型竞赛的入场门槛。
然而,构建这样一个庞大的计算集群并不是简单地叠加一万张GPU卡的问题,而是一个涉及超大规模组网互联、高效集群计算、长期稳定性和高可用性等复杂技术挑战的超级系统工程。为此,摩尔线程推出了夸娥(KUAE)万卡智算集群解决方案,旨在建设能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。
据张建中介绍,目前夸娥千卡集群的算力利用率(MFU)已达50%以上,目标是在万卡集群中通过一系列软硬件技术手段进一步提升至60%,达到行业较高水平。这显示了摩尔线程在提升算力利用率方面所做的不懈努力。
此外,摩尔线程已经与中国移动、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司等合作伙伴就三个万卡集群项目签署了战略合作协议,标志着公司在推动国产GPU技术应用于大规模计算集群方面迈出了重要一步。
随着技术的不断进步和完善,摩尔线程及其合作伙伴们正携手共进,致力于为推动科技进步和社会发展作出更大贡献,共同迎接生成式AI时代的到来。
本网信息来自于互联网与网友投稿,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。https://zjxw.hqcswzx.com/16842.html