新方法可以使大型语言模型的速度提高300倍

AI行业新闻12个月前发布 yundic
92 0 0

苏黎世理工大学的科学家们发现,大型语言模型(LLM)只需要使用其神经元的一小部分来进行个人推理。他们的新方法有望让LLM运行得更快。

为了开始了解他们是如何设法加快AI模型的速度,我们需要对组成AI语言模型的一些技术材料有一个大致的了解。

像GPT或Llama这样的人工智能模型是由前馈网络(一种人工神经网络)组成的。

前馈网络通常被组织成多层,每一层神经元接收来自前一层的输入并将其输出发送到下一层。

这涉及密集矩阵乘法(DMM),它要求FF中的每个神经元对来自前一层的所有输入执行计算。这就是为什么英伟达出售这么多GPU的原因,因为这个过程需要大量的处理能力。

研究人员使用快速前馈网络(FFF)使这个过程快得多。FFF取每一层神经元,将其分解为块,然后根据输入仅选择最相关的块。这个过程相当于执行条件矩阵乘法(CMM)。

这意味着,不是一个层的所有神经元都参与计算,而是只涉及非常小的一部分。

把它想象成分拣一堆邮件,然后找到一封给你的信。而不是阅读每个字母上的姓名和地址,你可以首先按邮政编码对它们进行排序,然后只关注你所在地区的那些。

同样,FFF只识别每次计算所需的神经元,与传统FF相比,仅需处理的一小部分。

快多少?

研究人员在谷歌BERT模型的一个变体上测试了他们的方法,他们称之为UltraFastBERT。UltraFastBERT由4095个神经元组成,但每层推理只选择性地使用12个神经元。

这意味着UltraFastBERT在推理过程中需要大约0.03%的神经元参与处理,而常规BERT则需要100%的神经元参与计算。

理论上,这意味着UltraFastBERT将比BERT或GPT—3快341倍。

为什么当研究人员向我们保证他们的方法有效时,我们要说“理论上”呢?因为他们必须创建一个软件变通方案,让他们的FFF与BERT一起工作,并且在实际测试中仅实现了78倍的速度提升。

这是个秘密

研究论文解释说:“密集矩阵乘法是计算史上最优化的数学运算。已经投入了巨大的努力来设计存储器、芯片、指令集和软件例程,以尽可能快地执行它。这些进步中的许多都是…保密,只有通过功能强大但限制性强的编程接口才能向最终用户公开。

基本上,他们说的是,那些想出了最有效的方法来处理传统FF网络所需的数学处理的工程师对他们的低级软件和算法保密,不会让你查看他们的代码。

如果英特尔或英伟达GPU设计背后的大脑能够实现低级代码访问,以在人工智能模型中实现FFF网络,那么341倍的速度提升可能成为现实。

但他们会吗?如果你可以设计你的GPU,让人们可以购买99.7%的GPU来完成相同的处理量,你会这样做吗?经济学在这方面有一定的发言权,但FFF网络可能会带来人工智能的下一个巨大飞跃。

© 版权声明

相关文章

暂无评论

暂无评论...