Elon Musk宣布推出xAI的聊天机器人Grok的测试版,初步统计数据让我们了解它与其他模型的对比情况。
Grok聊天机器人基于xAI的前沿模型Grok—1,该模型是该公司在过去四个月开发的。xAI没有透露它使用了多少参数,但它确实对它的前身的一些数据进行了梳理。
Grok—0是当前模型的原型,它训练了330亿个参数,所以我们可以假设Grok—1至少训练了同样多的参数。
这听起来不是很多,但Xai声称Grok-0的性能“在标准的LM基准上接近大羊驼2(70B)的能力”,尽管它使用了一半的培训资源。
在没有参数图的情况下,我们不得不相信该公司的话,当它描述格罗克-1是“最先进的”,它比格罗克-0“强大得多”。
Grok—1是通过在这些标准机器学习基准测试中进行评估的:
- GSM8k:中学数学单词问题
- 多学科多项选择题
- HumanEval:Python代码完成任务
- 数学:用LaTeX写的初中和高中数学题
以下是结果的总结。
Grok—1基准测试结果。来源:xAI
结果很有趣,因为它们至少让我们了解了Grok与其他前沿模型的比较。
xAI表示,这些数据表明Grok—1击败了“其计算类中的所有其他模型”,并且仅被“大量训练数据和计算资源”训练的模型击败。
GPT—3.5有1750亿个参数,所以我们可以假设Grok—1有更少的参数,但可能超过其原型的330亿个参数。
Grok聊天机器人旨在处理问题回答、信息检索、创意写作和编码协助等任务。它更有可能用于比超级提示用例更短的交互,因为它的上下文窗口更小。
Grok—1的上下文长度为8,192,只有GPT—3.5的一半。这表明xAI可能打算Grok—1为了更好的效率而牺牲更长的上下文。
该公司表示,其目前的一些研究集中在“长上下文理解和检索”上,因此Grok的下一个迭代可能会有一个更大的上下文窗口。
用于训练Grok—1的确切数据集尚不清楚,但几乎可以肯定它包括你在X上的推文,并且Grok聊天机器人也可以实时访问互联网。
我们将不得不等待beta测试者的更多反馈,以获得一个真实世界的感觉,该模型实际上有多好。
Grok会帮助我们解开生命、宇宙和一切的奥秘吗?也许还没有,但这是一个有趣的开始。