Nvidia在MLPerf基准测试中创造新的人工智能培训记录

AI行业新闻1年前 (2023)发布 yundic

577 0 0

Nvidia扩展和优化了其Eos AI超级计算机，以创造新的MLPerf AI训练基准记录。

当NVIDIA在5月份开启其AI超级计算机Eos时，10,752个NVIDIA H100张量核心图形处理器启动了，它们刚刚进行了一些真实世界的测试。

这种前所未有的处理能力以及新的软件优化使Eos能够将MLPerf基准测试推向创纪录的领域。

开源MLPerf基准测试是一组训练和推理测试，旨在测量机器学习工作负载在现实世界数据集上的性能。

其中一个突出的结果是，Eos能够在短短3.9分钟内在10亿个代币上训练一个具有1750亿个参数的GPT—3模型。

当NVIDIA在不到6个月前创造了这一基准的纪录时，它所用的时间几乎是原来的3倍，时间为10.9分钟。

Nvidia在测试期间也实现了93%的效率，这意味着它几乎使用了Eos理论上可用的所有计算能力。

Microsoft Azure在其ND H100 v5虚拟机中使用了与Eos几乎相同的H100设置，在其MLPerf测试中，Nvidia的测试结果不到2%。

MLPerf测试中使用的NVIDIA硬件。消息来源：NVIDIA

2018年，英伟达首席执行官Jensen Huang表示，GPU的性能将每两年翻一番以上。这一说法是创造了Haung定律，并被证明是正确的，因为它使摩尔定律消失在计算机后视镜中。

那又怎么样？

Nvidia Acad的MLPerf基准训练测试只使用了GPT—3训练的完整数据集的一部分。如果您使用MLPerf测试中Eos设置的时间并对完整的GPT—3数据集进行外推，那么它可以在短短8天内训练完整的模型。

如果你试图使用其由512个A100 GPU组成的先进系统来实现这一目标，则需要大约170天的时间。

如果你正在训练一个新的人工智能模型，你能想象8天和170天在上市时间和成本上的差异吗？

H100 GPU不仅比A100 GPU强大得多，而且能效高达3.5倍。能源使用和人工智能的碳足迹是需要解决的真正问题。

为了了解人工智能处理的改进速度，想想不到一年前才上线的ChatGPT。基础模型GPT—3在10，240个Nvidia V100 GPU上进行了训练。

不到一年后，Eos的处理能力是该设置的28倍，效率提高了3.5倍。

训练GPT-3与NVIDIA Eos的处理能力

当OpenAI的Sam Altman结束了最近的DevDay时，他说OpenAI正在进行的项目将使其最新版本看起来很古怪。

考虑到像英伟达这样的处理能力公司正在实现的飞跃，Altman的说法可能总结了整个人工智能行业的未来。

# AI行业新闻

文章版权归作者所有，未经允许请勿转载。

研究人员创建高性能人工智能模型，从ECG中检测心脏病

yundic

436

AlphaGeography：AI在几何学领域的里程碑式成就’

yundic

290

中国将出席英国Bletchley Park人工智能峰会’

yundic

209

澳大利亚学者为人工智能生成的虚假声明道歉

yundic

101

苹果在开发生成人工智能方面迈出了大步

yundic

197

OpenAI终于推出其GPT商店

yundic

117

暂无评论

暂无评论...

Nvidia在MLPerf基准测试中创造新的人工智能培训记录

那又怎么样？

Humane，OpenAI和Apple的合作，放弃了AI Pin“”

英伟达再次击败美国人工智能硬件出口禁令

相关文章

暂无评论

热门网址

最新文章