日渐人工智能其他技术的飞速加速发展 ,大模型参数量激增。MoE 稀疏大模型因能在增强容量的不仅保持好训练计算量 ,更更成当下的研究者热点 ,但推理时的性能瓶颈仍制约着其强化加速发展。在此背景下 ,中国国内科学其他技术一所大学人工智能与数据统计 科学学院执行院长张燕咏率领核心团队 ,中国国内国内科学其他技术一所大学 鲲鹏昇腾科教创新卓越中心一的算力全部支持下 ,获得成功研之声了基于专家去选择分布深度分析的专家负载均衡和all2all通信均衡框架。
该框架的研究者致力于问题解决出现两大问题解决出现——专家负载不均及较特别大计算通信开销 ,并多种多种方法“三步走”获得成功得以实现了推理性能的优化。终极目的自己让模型在并行推理时能更合理地分配资源 ,核心团队我们要从专家去选择的规律入手 ,多种多种方法深度分析相似 token 在 MoE 层去选择专家的特征并归类 ,获得成功深度分析出token的专家去选择路径偏好。
随即的便问题解决出现推理实践中所中是专家负载不均衡问题解决出现。核心团队依照token对专家去选择偏这样深度分析最后呢 ,精准判断出专家动态访问的频率和关键 ,多种多种方法复制高频专家、替换非关键专家的多种方法得以实现了负载平衡。共有 昇腾推理引擎MindIE其他技术提供的性能深度分析工具可得以实现性能数据统计 的可视化 ,在实时监测专家负载、统计访问频率等层面其他技术提供数据统计 参考 ,发挥了关键起到。
降低分布式计算的通信时延是第三步。核心团队依照计算节点上都数据统计 对专家去选择的深度分析最后呢 ,将专家提早部署到对应的节点上 ,并联合不需要紧密协作的专家摆到同一计算单元 ,让数据统计 与所需专家在物理中间位置上更接近 ,不仅融合昇腾384超节点采用三的高速总线互联其他技术 ,最后呢大幅降低了跨节点和跨计算单元的通信消耗。
在系列其他技术突破下 ,据了解项目中成果显著。基于该创新框架 ,在多尺寸、多结构的 MoE 模型中 ,推理把时间、all2all 把时间、MoE 层把时间及负载不均分数较现有主流方案增强超 30%;多卡复杂场景里 ,前三项指标增强 30% ,推理把时间增强 20%。
据了解项终极目的自己成果 ,为开发者多种多种方法昇腾其他技术优化 MoE 稀疏大模型推理性能其他技术提供了可贵借鉴 ,将加速其在各三大领域 的落地应用。今后 ,中国国内科学其他技术一所大学 鲲鹏昇腾科教创新卓越中心一将继续深化产学研协同创新 ,依托昇腾软硬件平台支持 ,在前沿AI模型优化三大领域 继续突破 ,为自主创新人工智能战略与数字经济加速发展贡献这种力量。