MosaicML发布了他们新的开源人工智能模型-MPT-30B Base、Indict和Chat。
作为MPT(MosaicML预训练变压器)系列的一部分,这些开源模型被认为是同类产品中最复杂的,在大多数关键指标上都超过了GPT-3。
马赛克 他们的新机型使用了英伟达今年早些时候发布的最新H100芯片。
MPT—30B是第一个在高端NVIDIA H100 GPU上训练的公开LLM。
自2023年5月5日推出以来,Mosaic之前的MPT—7B机型(Base、Direct、Chat、StoryWriter)被下载超过330万次。MPT—30B有300亿个参数—远远少于GPT—3的1750亿个参数或GPT—4的1万亿个参数。
但参数计数并不是一切–远非如此–因为MPT-30B已经在更长的序列上接受了高达8000个令牌的训练,比GPT-3、骆驼系列模型和猎鹰模型多4倍。
这使MPT-30B能够更好地管理数据密集型企业工作流,并超越其他型号的代码密集型工作流。
几家企业,如领先的基于Web的IDE Reply和人工智能初创公司Scatter Lab,已经利用了MPT的开源模型,这些模型比专利模型如GPT—3更具可定制性。
Navan的联合创始人兼首席技术官Ilan Twig说。“在Navan,我们在产品和服务中使用生成人工智能,为我们的虚拟旅行社和对话式商业智能代理等体验提供动力。MosaicML的基础模型提供了最先进的语言功能,同时非常高效地微调和大规模提供推理服务。
MPT—30B,现在可通过HuggingFace Hub购买,是完全开源的,开发人员可以用他们的数据对它进行微调。
Mosaic旨在使企业能够将强大的开源模型集成到他们的工作流程中,同时保留数据主权。
开源边缘
开源模型, 迅速弥合差距 像OpenAI这样的竞争对手。
随着训练和部署模型所需的计算资源的减少,开源开发者不再需要拥有数百个高端处理器的数百万美元的超级计算机来训练他们的模型。
部署模型也是如此-MPT-30B可以在单个GPU上运行,开源社区甚至成功地在Raspberry PI上运行了骆驼模型的精简版本。
我已经成功地运行了LLaMA 7B模型在我的4GB RAM Raspberry Pi 4上。它是超级慢约10秒/令牌。但看起来我们可以在便宜的硬件上运行强大的认知管道。pic.twitter.com/XDbvM2U5GY
-ArtemAndreenko