Nvidia在MLPerf基准测试中创造新的人工智能培训记录

AI行业新闻1年前 (2023)发布 yundic
570 0 0

Nvidia扩展和优化了其Eos AI超级计算机,以创造新的MLPerf AI训练基准记录。

当NVIDIA在5月份开启其AI超级计算机Eos时,10,752个NVIDIA H100张量核心图形处理器启动了,它们刚刚进行了一些真实世界的测试。

这种前所未有的处理能力以及新的软件优化使Eos能够将MLPerf基准测试推向创纪录的领域。

开源MLPerf基准测试是一组训练和推理测试,旨在测量机器学习工作负载在现实世界数据集上的性能。

其中一个突出的结果是,Eos能够在短短3.9分钟内在10亿个代币上训练一个具有1750亿个参数的GPT—3模型。

当NVIDIA在不到6个月前创造了这一基准的纪录时,它所用的时间几乎是原来的3倍,时间为10.9分钟。

Nvidia在测试期间也实现了93%的效率,这意味着它几乎使用了Eos理论上可用的所有计算能力。

Microsoft Azure在其ND H100 v5虚拟机中使用了与Eos几乎相同的H100设置,在其MLPerf测试中,Nvidia的测试结果不到2%。

Nvidia在MLPerf基准测试中创造新的人工智能培训记录

MLPerf测试中使用的NVIDIA硬件。消息来源:NVIDIA

2018年,英伟达首席执行官Jensen Huang表示,GPU的性能将每两年翻一番以上。这一说法是创造了Haung定律,并被证明是正确的,因为它使摩尔定律消失在计算机后视镜中。

那又怎么样?

Nvidia Acad的MLPerf基准训练测试只使用了GPT—3训练的完整数据集的一部分。如果您使用MLPerf测试中Eos设置的时间并对完整的GPT—3数据集进行外推,那么它可以在短短8天内训练完整的模型。

如果你试图使用其由512个A100 GPU组成的先进系统来实现这一目标,则需要大约170天的时间。

如果你正在训练一个新的人工智能模型,你能想象8天和170天在上市时间和成本上的差异吗?

H100 GPU不仅比A100 GPU强大得多,而且能效高达3.5倍。能源使用和人工智能的碳足迹是需要解决的真正问题。

为了了解人工智能处理的改进速度,想想不到一年前才上线的ChatGPT。基础模型GPT—3在10,240个Nvidia V100 GPU上进行了训练。

不到一年后,Eos的处理能力是该设置的28倍,效率提高了3.5倍。

Nvidia在MLPerf基准测试中创造新的人工智能培训记录

训练GPT-3与NVIDIA Eos的处理能力

当OpenAI的Sam Altman结束了最近的DevDay时,他说OpenAI正在进行的项目将使其最新版本看起来很古怪。

考虑到像英伟达这样的处理能力公司正在实现的飞跃,Altman的说法可能总结了整个人工智能行业的未来。

© 版权声明

相关文章

暂无评论

暂无评论...