总部位于旧金山的人工智能创业公司Anthropic发布了其最新的LLM及其Claude 3系列车型。
《克劳德历险记3》有三个变奏曲,分别是:夏威夷曲、十四行诗和奥普斯。对于我们当中不那么诗意的人来说,这就意味着小、中、大。克劳德3 Opus是人类最先进的模型,也是业内第一个声称在广泛的基准测试中击败OpenAI的GPT-4的模型。
GPT-4一直是人工智能公司长期以来用来比较它们的LLM性能的黄金标准。这些比较经常使用“接近”或“接近”这样的词,但人类最终可以声称超过了GPT-4的S的能力。
以下是Claude 3与GPT—4、GPT—3和Gemini Ultra和Pro的基准数据。
Claude 3基准数据与GPT—4、GPT—3.5、Gemini Ultra和Gemini Pro进行比较。来源:Anthropic
值得注意的是,上面的GPT-4数据是OpenAI在GPT-4发布之前在其技术报告中提供的数据。克劳德3型号卡承认,GPT-4涡轮增压的分数更高。
即使如此,克劳德3作品的数字是一个大问题。尽管该公司如何获得这些数据存在不可避免的争论,但Anthropic表示,Claude 3 Opus代表了“比任何其他型号都更高的智能”。
Claude 3 Opus输入/输出API成本每百万代币将花费15美元/75美元。这与价格为10美元/30美元的GPT—4 Turbo相比是陡峭的。Claude 3十四行诗(3美元/15美元)和Claude 3 Haiku(0.25美元/1.25美元)提供了非常好的价值,当你看看这些较小型号的性能数据。
如果你想免费试用克劳德3,你可以在Anthropic的claude.ai聊天机器人上免费试用,一旦它的服务器从交通高峰中恢复过来。它由克劳德3十四行诗提供支持,付费专业用户可以访问Opus。
克劳德3模型不是多模态,但他们有令人印象深刻的视觉能力。他们无法为您生成图像,但基准测试表明Opus擅长分析照片、图表、图表和技术图表。
克劳德3视觉能力与GPT-4V、Gemini Ultra和Gemini Pro进行了比较。资料来源:人类
人类表示,Claude 3模型能够接受超过100万个令牌的输入,但对于大多数用户来说,上下文窗口目前将限制在20万个令牌。这仍然比GPT-4涡轮128K的背景要多得多。
一个大的上下文窗口只有在配合良好的回忆时才有用,Anthropic声称Opus提供了“近乎完美的回忆,超过99%的准确率”。
在《克劳德3·奥普斯》的《大海捞针》回忆测试中,发生了一件有趣的事情。当被问到一个问题时,只有当它发现插入的“针”句时,它才能回答,它表示它理解它正在接受测试。令人印象深刻,还有点吓人。
Claude 3 Opus意识到它正在被测试。来源:X
Anthropic是其所谓的“宪法AI”的大力支持者,该AI旨在提高其模型的安全性和透明度。对于克劳德2,这种对安全的追求导致了很多拒绝响应实际上无害的提示。
克劳德3号更善于理解提示的细微差别,以更好地决定什么做什么,什么不落在anthropic的护栏上。与克劳德2.1相比,克劳德3也实现了更好的准确性和更少的幻觉。
一个提示的例子,克劳德2.1拒绝回答,而克劳德3认为它是安全的。
一些AI悲观主义者声称,我们正在走向AI冬天,LLM模型的性能正在达到一个平台,但Anthropic不同意。该公司表示,它不相信“模型智能已经接近极限”。
它计划在未来为Claude 3带来几个有趣的升级,增加更先进的代理功能,包括工具使用和交互式编码(REPL)。
高定价可能会让克劳德3 Opus的初始市场处于更多的利基研究或专业应用中。Sonnet和Haiku提供的定价和性能可能是目前最大的采用。
我们会看到OpenAI的价格下降吗?随着OpenAI在基准测试中感受到了热度,我们必须非常接近于GPT—5的发布。