微软和OpenAI开发了一种新方法来微调大规模AI模型,否则这些模型重新训练的成本太高,例如GPT-3。微软研究院发布的一篇博客文章描述了一种称为µ-参数化(或µP)的技术,该技术利用发现小型和大型AI模型行为之间的相似性,以最大限度地减少进行优化所需的计算资源数量。
尽管您需要博士学位才能理解具体细节,但基本信息是:使用µ参数化,开发能够产生远优于当今可用性能的大规模AI模型将更便宜、更简单。
正如博文中所解释的,大型AI模型难以有效训练的一个原因是,我们对它们的行为在扩展时的变化方式知之甚少。因此,人工智能模型越大,研究人员目前对它的预期就越不完善。
然而,µ-参数化通过利用不同大小的神经网络在某些条件下共享相同的最佳超参数(HP)的洞察力,提供了一种以更低的成本和更高的效率调整大规模模型的途径。
从本质上讲,这意味着可以向外推断小规模调整过程并映射到更大的模型上,而不是从头开始重新训练整个数十亿参数的模型。
“µP参数化模型和选择学习率的原则性方法使任何人都可以更轻松地扩展深度神经网络的训练。如此优美的理论和实际影响的完美结合,”微软研究院实验室主任JohannesGehrke说。
为了将理论付诸实践,微软与OpenAI合作在GPT-3上释放µ-参数化,这是一种自然语言模型,其最大迭代由1750亿个参数组成。
“在参数化GPT-3版本并在µP中相对关注之后,我们调整了一个具有4000万个参数的小型代理模型,然后将最佳超参数组合复制到GPT-3的67亿个参数变体中,”微软解释说。
结果相当惊人。合作者设法创建了性能更高的GPT-3版本,仅使用了67亿参数模型预训练中消耗的计算能力的7%。
为了帮助其他从业者从这些发现中受益,微软发布了一个PyTorch包,旨在帮助将µ-参数化集成到他们现有的模型中,这在实践中可能会很挑剔。
然而,该公司还表示,关于AI模型的扩展还有很多尚待了解的地方,并承诺将继续努力“为大规模机器学习提供更有原则的方法”。
标签:
版权声明:本文由用户上传,如有侵权请联系删除!