Nvidia软件增强了H100推理性能

AI产品新闻8个月前发布 yundic
191 0 0

英伟达宣布推出新的开源软件,该软件将在其H100 GPU上增强推理性能。

目前对英伟达GPU的大量需求是为训练新模型建立计算能力。但一旦训练好,这些模型就需要使用。人工智能中的推理指的是像ChatGPT这样的LLM从训练过的数据中得出结论或做出预测并生成输出的能力。

当你试图使用ChatGPT时,弹出一条消息,说它的服务器正在承受压力,这是因为计算硬件难以跟上推理的需求。

英伟达表示,其新软件TensorRT—LLM可以使现有硬件运行得更快,更节能。

该软件包括最流行的模型的优化版本,包括Meta Llama 2、OpenAI GPT—2和GPT—3、Falcon、Mosaic MPT和BLOOM。

它使用了一些巧妙的技术,如更高效的推理任务批处理和量化技术来实现性能提升。

LLM通常使用16位浮点值来表示权重和激活。量化获取这些值,并在推理期间将其减少到8位浮点值。大多数模型都设法保持其准确性,而这种降低的精度。

拥有基于NVIDIA H100图形处理器的计算基础设施的公司可以期待推理性能的巨大改善,而不必花费一分钱使用TensorRT-LLM。

Nvidia使用了一个运行小型开源模型GPT—J 6的示例来总结CNN/Daily Mail数据集中的文章。其较旧的A100芯片被用作基线速度,然后与不带TensorRT—LLM的H100进行比较。

Nvidia软件增强了H100推理性能

来源:Nvidia

下面是运行Meta的Llama 2的比较

Nvidia软件增强了H100推理性能

消息来源:NVIDIA

英伟达表示,其测试显示,根据模型的不同,运行TensorRT—LLM的H100在推理过程中消耗的能量是A100的3.2至5.6倍。

如果你在H100硬件上运行人工智能模型,这意味着一旦你安装了这个软件,你的推理性能将几乎翻一番,而且你的能源账单将大大减少。

TensorRT-LLM也将用于NVIDIA的Grace Hopper超级芯片,但该公司尚未公布运行其新软件的GH200的性能数据。

当NVIDIA将其GH200超级芯片通过行业标准的MLPerf AI性能基准测试时,新软件还没有准备好。结果表明,GH200的性能比单芯片H100 SXM高出17%。

如果NVIDIA在GH200上使用TensorRT-LLM实现哪怕是轻微的推断性能提升,它将使该公司远远领先于最接近的竞争对手。现在,成为英伟达的销售代表肯定是世界上最容易的工作。

© 版权声明

相关文章

暂无评论

暂无评论...