更小、更高效的人工智能模型,如Mistral开创性的Mixtral 8×7 B模型的发布,已经看到了”混合专家”(MoE)和”稀疏”的概念成为热门话题。
这些术语已经从复杂的人工智能研究论文领域转移到报道快速改进的大型语言模型(LLM)的新闻文章。
幸运的是,您不必成为数据科学家,就能对MoE和稀疏性有一个广泛的了解,以及为什么这些概念很重要。
专家的混合
像GPT-3这样的LLM基于密集网络架构。这些模型由多层神经网络组成,其中一层中的每个神经元都与前一层和后一层中的每一个神经元相连。
所有的神经元在训练和推理过程中都参与其中,推理过程是对你的提示做出反应的过程。这些模型非常适合处理各种各样的任务,但使用了大量的计算能力,因为它们网络的每个部分都参与了输入的处理。
基于MoE体系结构的模型将各层分解为一定数量的”专家”,其中每个专家都是一个针对特定功能进行预训练的神经网络。因此,当你看到一个名为Mixtral 8x7B的模型时,它意味着它有8个专家层,每个层有70亿个参数。
每一位专家都受过训练,使其擅长于整体问题的某个狭窄方面,就像某个领域的专家一样。
一旦提示,门控网络将提示分解为不同的令牌,并决定哪个专家最适合处理它。然后将每个专家的输出组合起来,以提供最终输出。
把MOE想象成有一群拥有非常特殊技能的商人来为你的家进行翻新。你不是雇佣一个普通的杂工(密集的网络)来做所有的事情,而是让水管工约翰做管道工作,让电工彼得做电工。
这些模型的训练速度更快,因为您不需要训练整个模型来做所有事情。
与具有相同参数数量的密集模型相比,MOE模型具有更快的推断速度。这就是为什么总共有560亿个参数的Mixtral 8x7B可以赶上或超过拥有1750亿个参数的GPT-3.5的原因。
有传言称,GPT-4采用的是拥有16位专家的教育部架构,而双子座则采用密集架构。
稀疏性
稀疏性指的是减少模型中活动元素的数量,如神经元或权重,而不会显著损害其性能。
如果AI模型的输入数据(如文本或图像)包含许多零,则稀疏数据表示技术不会浪费存储零的努力。
在稀疏神经网络中,权重或神经元之间的连接强度通常为零。稀疏性会修剪或删除这些权重,以便在处理过程中不包括它们。MoE模型自然也是稀疏的,因为它可以有一个专家参与处理,而其他专家则闲置。
稀疏性可以导致模型计算密集度较低,需要更少的存储空间。最终在您的设备上运行的AI模型将严重依赖于Sparsity。
你可以把稀疏想象成去图书馆找问题的答案。如果图书馆有数十亿本书,你可以打开图书馆里的每一本书,最终在其中一些书中找到相关的答案。这就是非稀疏模型所做的事情。
如果我们去掉了大部分是空白页面或无关信息的书籍,就更容易找到与我们的问题相关的书籍,这样我们打开的书籍就会更少,找到答案的速度就会更快。
如果你喜欢跟上最新的人工智能发展,那么期待着看到更多的人提到MoE和Sparthy。LLM即将变得更小、更快。