NVIDIA的新H100 GPU为人工智能培训任务设定了新的基准,并在此过程中打破了多项纪录。
MLPerf由一个由研究人员、学者和其他专家组成的联盟创建,他们构建了基准测试系统部署和运行AI模型的速度。MLPerf本质上是一系列测试,旨在测量机器学习(ML)硬件、软件和服务的速度和效率。
人工智能硬件的全球领先者NVIDIA测试了一款3,584个H100 GPU集群 来展示他们惊人的速度
该集群由人工智能初创公司Inflection AI共同开发,由专门从事基于GPU的工作负载的云服务提供商CoreWeave管理,在不到11分钟的时间内完成了基于GPT—3模型的训练基准测试。
换句话说,该集群训练了一个具有约1750亿个参数的GPT—3等效模型,时间与煮咖啡或遛狗的时间大致相同。虽然我们不知道OpenAI花了多长时间来训练GPT—3,但肯定不是11分钟。
H100 GPU在其他8个MLPerf测试中创下纪录,展示了其原始的强大功能和多功能性。以下是一些结果:
- 大型语言模型(GPT—3):10.9分钟
- 自然语言处理(BERT):0.13分钟(8秒)
- 建议(DLRMv2):1.61分钟
- 目标检测,重量级(MASK R-CNN):1.47分钟
- 对象检测,轻量级(RetinaNet):1.51分钟
- 图像分类(ResNet-50 v1.5):0.18分钟(11秒)
- 图像分割(3D U-Net):0.82分钟(49秒)
- 语音识别(RNN—T):1.65分钟
在名为v3.0的最新一轮基准测试中,MLPerf还更新了对推荐系统的测试,推荐系统是根据用户过去的行为向用户推荐产品或服务的算法。
新的测试使用了更大的数据集和更新的人工智能模型,以更好地模拟服务提供商面临的挑战。NVIDIA是唯一一家提交这一基准结果的公司。
MLPerf基准测试
MLCommons一个人工智能和技术联盟,最近宣布了他们的人工智能基准测试的最新发现。
主要的基准测试轮被称为v3.0,它评估机器学习模型培训的效率。另一轮名为Tiny V1.1的测试考察了超紧凑、低功耗设备的ML应用程序。
华硕、Azure、戴尔、富士通、技嘉、H3C、IEI、英特尔和哈瓦那实验室、Krai、联想、NVIDIA、NVIDIA、NVIDIA+CoreWeave、广达云技术、SuperMicro和xFusion等公司参加了MLPerf V3.0。
总的来说,模型在过去6个月里表现出了高达1.54倍的性能提升,或自第一轮以来的33至49倍, v0.52019年,展示了机器学习系统的进步步伐。
Nvidia凭借其超高端的H100芯片声称了Round v3.0的头皮,他们可能会在可预见的未来保持这一芯片。