NVIDIA H100芯片在基准测试中打破人工智能训练记录

AI行业新闻11个月前发布 yundic
519 0 0

NVIDIA的新H100 GPU为人工智能培训任务设定了新的基准,并在此过程中打破了多项纪录。

MLPerf由一个由研究人员、学者和其他专家组成的联盟创建,他们构建了基准测试系统部署和运行AI模型的速度。MLPerf本质上是一系列测试,旨在测量机器学习(ML)硬件、软件和服务的速度和效率。

人工智能硬件的全球领先者NVIDIA测试了一款3,584个H100 GPU集群 来展示他们惊人的速度

该集群由人工智能初创公司Inflection AI共同开发,由专门从事基于GPU的工作负载的云服务提供商CoreWeave管理,在不到11分钟的时间内完成了基于GPT—3模型的训练基准测试。

换句话说,该集群训练了一个具有约1750亿个参数的GPT—3等效模型,时间与煮咖啡或遛狗的时间大致相同。虽然我们不知道OpenAI花了多长时间来训练GPT—3,但肯定不是11分钟。

H100 GPU在其他8个MLPerf测试中创下纪录,展示了其原始的强大功能和多功能性。以下是一些结果:

  • 大型语言模型(GPT—3):10.9分钟
  • 自然语言处理(BERT):0.13分钟(8秒)
  • 建议(DLRMv2):1.61分钟
  • 目标检测,重量级(MASK R-CNN):1.47分钟
  • 对象检测,轻量级(RetinaNet):1.51分钟
  • 图像分类(ResNet-50 v1.5):0.18分钟(11秒)
  • 图像分割(3D U-Net):0.82分钟(49秒)
  • 语音识别(RNN—T):1.65分钟

在名为v3.0的最新一轮基准测试中,MLPerf还更新了对推荐系统的测试,推荐系统是根据用户过去的行为向用户推荐产品或服务的算法。

新的测试使用了更大的数据集和更新的人工智能模型,以更好地模拟服务提供商面临的挑战。NVIDIA是唯一一家提交这一基准结果的公司。

MLPerf基准测试

MLCommons一个人工智能和技术联盟,最近宣布了他们的人工智能基准测试的最新发现。

主要的基准测试轮被称为v3.0,它评估机器学习模型培训的效率。另一轮名为Tiny V1.1的测试考察了超紧凑、低功耗设备的ML应用程序。

华硕、Azure、戴尔、富士通、技嘉、H3C、IEI、英特尔和哈瓦那实验室、Krai、联想、NVIDIA、NVIDIA、NVIDIA+CoreWeave、广达云技术、SuperMicro和xFusion等公司参加了MLPerf V3.0。

总的来说,模型在过去6个月里表现出了高达1.54倍的性能提升,或自第一轮以来的33至49倍, v0.52019年,展示了机器学习系统的进步步伐。

Nvidia凭借其超高端的H100芯片声称了Round v3.0的头皮,他们可能会在可预见的未来保持这一芯片。

© 版权声明

相关文章

暂无评论

暂无评论...