新方法可以使大型语言模型的速度提高300倍

AI行业新闻5个月前发布 yundic

25 0 0

苏黎世理工大学的科学家们发现，大型语言模型(LLM)只需要使用其神经元的一小部分来进行个人推理。他们的新方法有望让LLM运行得更快。

为了开始了解他们是如何设法加快AI模型的速度，我们需要对组成AI语言模型的一些技术材料有一个大致的了解。

像GPT或Llama这样的人工智能模型是由前馈网络（一种人工神经网络）组成的。

前馈网络通常被组织成多层，每一层神经元接收来自前一层的输入并将其输出发送到下一层。

这涉及密集矩阵乘法（DMM），它要求FF中的每个神经元对来自前一层的所有输入执行计算。这就是为什么英伟达出售这么多GPU的原因，因为这个过程需要大量的处理能力。

研究人员使用快速前馈网络（FFF）使这个过程快得多。FFF取每一层神经元，将其分解为块，然后根据输入仅选择最相关的块。这个过程相当于执行条件矩阵乘法（CMM）。

这意味着，不是一个层的所有神经元都参与计算，而是只涉及非常小的一部分。

把它想象成分拣一堆邮件，然后找到一封给你的信。而不是阅读每个字母上的姓名和地址，你可以首先按邮政编码对它们进行排序，然后只关注你所在地区的那些。

同样，FFF只识别每次计算所需的神经元，与传统FF相比，仅需处理的一小部分。

快多少？

研究人员在谷歌BERT模型的一个变体上测试了他们的方法，他们称之为UltraFastBERT。UltraFastBERT由4095个神经元组成，但每层推理只选择性地使用12个神经元。

这意味着UltraFastBERT在推理过程中需要大约0.03%的神经元参与处理，而常规BERT则需要100%的神经元参与计算。

理论上，这意味着UltraFastBERT将比BERT或GPT—3快341倍。

为什么当研究人员向我们保证他们的方法有效时，我们要说“理论上”呢？因为他们必须创建一个软件变通方案，让他们的FFF与BERT一起工作，并且在实际测试中仅实现了78倍的速度提升。

这是个秘密

研究论文解释说：“密集矩阵乘法是计算史上最优化的数学运算。已经投入了巨大的努力来设计存储器、芯片、指令集和软件例程，以尽可能快地执行它。这些进步中的许多都是…保密，只有通过功能强大但限制性强的编程接口才能向最终用户公开。

基本上，他们说的是，那些想出了最有效的方法来处理传统FF网络所需的数学处理的工程师对他们的低级软件和算法保密，不会让你查看他们的代码。

如果英特尔或英伟达GPU设计背后的大脑能够实现低级代码访问，以在人工智能模型中实现FFF网络，那么341倍的速度提升可能成为现实。

但他们会吗？如果你可以设计你的GPU，让人们可以购买99.7%的GPU来完成相同的处理量，你会这样做吗？经济学在这方面有一定的发言权，但FFF网络可能会带来人工智能的下一个巨大飞跃。

# AI行业新闻

文章版权归作者所有，未经允许请勿转载。

到2027年，人工智能消耗的能源可能与荷兰相当

yundic

220

研究人员建立突破性的AI模型用于药物发现

yundic

368

法国，德国，意大利同意监管人工智能，但英国拒绝

yundic

467

经合组织修改了人工智能的定义，将延伸到欧盟人工智能法案

yundic

人工智能裤子帮助中风幸存者恢复运动

yundic

174

哈利·波特和OpenAI的有效利他主义者

yundic

172

暂无评论

暂无评论...

新方法可以使大型语言模型的速度提高300倍

快多少？

这是个秘密

Meta发布多通道感知数据集Ego-Exo4D

欧盟谈判代表在人工智能法案上取得一些进展，但最终谈判尚未到来

相关文章

暂无评论

热门网址

最新文章