Nvidia在MLPerf基准测试中创造新的人工智能培训记录

AI行业新闻6个月前发布 yundic

511 0 0

Nvidia扩展和优化了其Eos AI超级计算机，以创造新的MLPerf AI训练基准记录。

当NVIDIA在5月份开启其AI超级计算机Eos时，10,752个NVIDIA H100张量核心图形处理器启动了，它们刚刚进行了一些真实世界的测试。

这种前所未有的处理能力以及新的软件优化使Eos能够将MLPerf基准测试推向创纪录的领域。

开源MLPerf基准测试是一组训练和推理测试，旨在测量机器学习工作负载在现实世界数据集上的性能。

其中一个突出的结果是，Eos能够在短短3.9分钟内在10亿个代币上训练一个具有1750亿个参数的GPT—3模型。

当NVIDIA在不到6个月前创造了这一基准的纪录时，它所用的时间几乎是原来的3倍，时间为10.9分钟。

Nvidia在测试期间也实现了93%的效率，这意味着它几乎使用了Eos理论上可用的所有计算能力。

Microsoft Azure在其ND H100 v5虚拟机中使用了与Eos几乎相同的H100设置，在其MLPerf测试中，Nvidia的测试结果不到2%。

MLPerf测试中使用的NVIDIA硬件。消息来源：NVIDIA

2018年，英伟达首席执行官Jensen Huang表示，GPU的性能将每两年翻一番以上。这一说法是创造了Haung定律，并被证明是正确的，因为它使摩尔定律消失在计算机后视镜中。

那又怎么样？

Nvidia Acad的MLPerf基准训练测试只使用了GPT—3训练的完整数据集的一部分。如果您使用MLPerf测试中Eos设置的时间并对完整的GPT—3数据集进行外推，那么它可以在短短8天内训练完整的模型。

如果你试图使用其由512个A100 GPU组成的先进系统来实现这一目标，则需要大约170天的时间。

如果你正在训练一个新的人工智能模型，你能想象8天和170天在上市时间和成本上的差异吗？

H100 GPU不仅比A100 GPU强大得多，而且能效高达3.5倍。能源使用和人工智能的碳足迹是需要解决的真正问题。

为了了解人工智能处理的改进速度，想想不到一年前才上线的ChatGPT。基础模型GPT—3在10，240个Nvidia V100 GPU上进行了训练。

不到一年后，Eos的处理能力是该设置的28倍，效率提高了3.5倍。

训练GPT-3与NVIDIA Eos的处理能力

当OpenAI的Sam Altman结束了最近的DevDay时，他说OpenAI正在进行的项目将使其最新版本看起来很古怪。

考虑到像英伟达这样的处理能力公司正在实现的飞跃，Altman的说法可能总结了整个人工智能行业的未来。

# AI行业新闻

文章版权归作者所有，未经允许请勿转载。

阿里巴巴发布开源LLM以对抗Meta的Lama 2

yundic

275

美国委托的报告称人工智能构成了“威胁级别”

yundic

138

大型科技人工智能公司推出1000万美元人工智能安全基金

yundic

271

研究揭示了越狱语言模型的新技术

yundic

525

谷歌试验一种数字水印来识别AI图像

yundic

324

AI扮演医生，但对环境并不是很好。

yundic

470

暂无评论

暂无评论...

Nvidia在MLPerf基准测试中创造新的人工智能培训记录

那又怎么样？

Humane，OpenAI和Apple的合作，放弃了AI Pin“”

英伟达再次击败美国人工智能硬件出口禁令

相关文章

暂无评论

热门网址

最新文章