2月22日微软取消了全球规模人工智能基础设施的计划

温达欣
导读 微软透露,它正在为AI工作负载开发一种新的全球规模调度系统,称为Singularity。正如该公司发表的一篇技术论文中所解释的那样,Singularity

微软透露,它正在为AI工作负载开发一种新的“全球规模”调度系统,称为Singularity。正如该公司发表的一篇技术论文中所解释的那样,Singularity是“一种新型的、工作负载感知的调度程序,它可以透明地抢占和弹性扩展深度学习工作负载,以推动高利用率,而不会影响它们在全球人工智能加速器中的正确性或性能”。

在非技术方面,这意味着该系统旨在帮助确保以最佳方式利用公司的全球服务器硬件网络,从而降低与运行AI工作负载相关的成本。

Singularity价值主张的核心是能够在流动中调整工作规模,以及在全球不同基础设施之间转移它们。

正如论文中所解释的,可以将实时作业迁移到不同的集群或数据中心,并在其停止的精确点恢复,从而优化容量使用。它还可以根据需要利用不同数量和类型的AI加速器弹性地向上或向下扩展。

微软表示,该系统的美妙之处在于它不需要开发人员进行额外的工作,因为Singularity无需修改代码即可运行。

然而,为了使这一切成为可能,微软必须找到一种方法来将工作负载与硬件资源分离。这种新颖的解决方案利用了公司称之为“设备代理”的东西,它在自己的地址空间中运行,并建立了一个允许资源重新分配的分离层。

微软在总结中写道:“Singularity在调度深度学习工作负载方面取得了重大突破,将弹性等小众特性转化为主流、始终在线的特性,调度程序可以依赖这些特性来实施严格的SLA。”

“凭借使未修改的作业可抢占且可调整大小且性能开销可忽略不计的新颖机制,Singularity实现了前所未有的工作负载可替代性,使作业能够利用全球分布机队中任何地方的备用容量。”

尽管调度服务是本文的主要关注点,但作者表示,该系统旨在跨数十万个GPU和其他AI加速器进行扩展。

TechRadarPro已询问微软预计Singularity何时可以商业化。

标签:

版权声明:本文由用户上传,如有侵权请联系删除!