Google以Gemini 1.5 Pro的形式打出另一张AI牌

169 0 0

谷歌在Gemini 1.5 Pro上打出了另一张牌，这是一个建立在其前身Gemini 1.0成就之上的模型。

随着谷歌诗人的死亡和埋葬，双子座家庭的增长速度似乎快于人工智能社区的跟踪。

现在推出了Gemini 1.5 Pro，它比谷歌前旗舰机型Gemini Ultra更高效。

事实上，Gemini 1.5 Pro在一些基准测试中在Ultra上领先，但我们需要更多信息进行全面的比较。

双子座模型基准

Gemini 1.5 Pro提供了新的专家混合（MoE）架构，在87%的基准测试中表现优于Gemini Pro（现称为Gemini 1.0 Pro）。

它可以通过谷歌新的付费人工智能平台Google One AI Premium提供，取代了Gemini Pro，尽管谷歌几周前才升级了该平台。

那么，一款击败1.0 Pro但与Ultraa相似的机型有什么用途呢？

除了与Ultra相比提高了计算效率和在某些领域的卓越性能外，Gemini 1.5 Pro的主要特点是， 128，000个令牌上下文窗口，可扩展至100万个令牌。它击败了128，000的GPT—4 Turbo和200，000的Claude 2.1。

要将100万个上下文窗口放在上下文中，它大致翻译为70万个单词，11小时的音频或1小时的视频。

这使得处理和解释海量数据集成为可能，包括整本书。不过，谷歌强调，Gemini 1.5 Pro仍是一款旨在实现可伸缩性和通用性的中型多式联运车型。

双子座1.5是一个GPT—4杀手吗？当然，在蛮力性能上，它应该在具有大量信息的特定任务中超越它，正如谷歌热衷于展示的那样。

Gemini的应用和功能

像它的前身一样，Gemini 1.5 Pro的功能扩展到从文本到视频和音频的多种模式。

它的扩展上下文窗口使模型能够处理和推理大量的信息，如冗长的文档、广泛的代码库或数小时的视频内容。

在谷歌演示中，双子座1.5Pro可以理解和识别阿波罗11号S登月任务的402页文字记录中的细节。

另一个挑战是在巴斯特·基顿的《小夏洛克》中定位特定场景。使用描述和草图，1.5 Pro管理，尽管在某些情况下需要花费长达一分钟。

在另一项任务中，Gemini 1.5 Pro面临的挑战是将英语翻译成复杂的几内亚语Kalamang，反之亦然。

这尤其令人生畏，因为Kalamang在模型的训练数据中没有表现出来。

Google为模型提供了输入上下文中的教学材料，包括大约500页的参考语法，一个包含大约2000个条目的双语单词表（词典），以及一组大约400个平行句子。

这些材料包括大约25万个令牌，适合模型的扩展上下文窗口。

仅凭提供的教学材料，Gemini 1.5 Pro就成功地翻译了英语和卡拉芒语之间的句子。这个实验展示了该模型从上下文中吸收和应用新的语言规则和词汇的能力，有效地学习一门新的语言。

Gemini 1.5 Pro翻译的质量由人类专家评估，他们将模型的表现与人类语言学习者在相同的材料下的表现进行了比较。

另一个演示衡量了该模型在分析和解决超过100,000行代码方面的性能。

谷歌发布了一篇关于双子座1.5的研究论文，题为双子座1.5：在数百万个上下文令牌中解锁多模态理解.“。”

很明显，谷歌打算推动Gemini 1.5 Pro的扩展上下文窗口，该窗口目前在其100万个代币的上端占据主导地位。

Gemini 1.5 Pro在不同模态的长上下文检索任务上实现了近乎完美的召回，并在长文档QA、长视频QA和长上下文ASR中建立了新的标准。

文章详细介绍了Gemini 1.5 Pro在各种核心功能方面的表现，并将其与Gemini 1.0机型进行了比较：

获胜率提高：Gemini 1.5 Pro在多个基准测试中对Gemini 1.0 Pro显示了87.1%的胜率，对Gemini 1.0 Ultra显示了54.8%的胜率，展示了其改进
比表面积表现：在文本相关任务中，该模型对Gemini 1.0 Pro的胜率达到100%，对Gemini 1.0 Ultra的胜率达到77%。在视觉相关任务中，与Gemini 1.0 Pro和Ultra的胜率分别为77%和46%。音频任务显示60%的胜率对Gemini 1.0 Pro和20%的胜率对Gemini 1.0 Ultra。

总的来说，Gemini 1.5 Pro是一款不错的GPT—3.5级别机型，具有比竞争对手更长的上下文窗口。

这是否足以诱使人们远离ChatGPT？事实是，除非你有整本书要分析，否则好处可能微乎其微，甚至不存在。