人类发布了克劳德3，在基准上击败了GPT-4

AI行业新闻11个月前发布 yundic

308 0 0

总部位于旧金山的人工智能创业公司Anthropic发布了其最新的LLM及其Claude 3系列车型。

《克劳德历险记3》有三个变奏曲，分别是：夏威夷曲、十四行诗和奥普斯。对于我们当中不那么诗意的人来说，这就意味着小、中、大。克劳德3 Opus是人类最先进的模型，也是业内第一个声称在广泛的基准测试中击败OpenAI的GPT-4的模型。

GPT-4一直是人工智能公司长期以来用来比较它们的LLM性能的黄金标准。这些比较经常使用“接近”或“接近”这样的词，但人类最终可以声称超过了GPT-4的S的能力。

以下是Claude 3与GPT—4、GPT—3和Gemini Ultra和Pro的基准数据。

Claude 3基准数据与GPT—4、GPT—3.5、Gemini Ultra和Gemini Pro进行比较。来源：Anthropic

值得注意的是，上面的GPT-4数据是OpenAI在GPT-4发布之前在其技术报告中提供的数据。克劳德3型号卡承认，GPT-4涡轮增压的分数更高。

即使如此，克劳德3作品的数字是一个大问题。尽管该公司如何获得这些数据存在不可避免的争论，但Anthropic表示，Claude 3 Opus代表了“比任何其他型号都更高的智能”。

Claude 3 Opus输入/输出API成本每百万代币将花费15美元/75美元。这与价格为10美元/30美元的GPT—4 Turbo相比是陡峭的。Claude 3十四行诗（3美元/15美元）和Claude 3 Haiku（0.25美元/1.25美元）提供了非常好的价值，当你看看这些较小型号的性能数据。

如果你想免费试用克劳德3，你可以在Anthropic的claude.ai聊天机器人上免费试用，一旦它的服务器从交通高峰中恢复过来。它由克劳德3十四行诗提供支持，付费专业用户可以访问Opus。

克劳德3模型不是多模态，但他们有令人印象深刻的视觉能力。他们无法为您生成图像，但基准测试表明Opus擅长分析照片、图表、图表和技术图表。

克劳德3视觉能力与GPT-4V、Gemini Ultra和Gemini Pro进行了比较。资料来源：人类

人类表示，Claude 3模型能够接受超过100万个令牌的输入，但对于大多数用户来说，上下文窗口目前将限制在20万个令牌。这仍然比GPT-4涡轮128K的背景要多得多。

一个大的上下文窗口只有在配合良好的回忆时才有用，Anthropic声称Opus提供了“近乎完美的回忆，超过99%的准确率”。

在《克劳德3·奥普斯》的《大海捞针》回忆测试中，发生了一件有趣的事情。当被问到一个问题时，只有当它发现插入的“针”句时，它才能回答，它表示它理解它正在接受测试。令人印象深刻，还有点吓人。

Claude 3 Opus意识到它正在被测试。来源：X

Anthropic是其所谓的“宪法AI”的大力支持者，该AI旨在提高其模型的安全性和透明度。对于克劳德2，这种对安全的追求导致了很多拒绝响应实际上无害的提示。

克劳德3号更善于理解提示的细微差别，以更好地决定什么做什么，什么不落在anthropic的护栏上。与克劳德2.1相比，克劳德3也实现了更好的准确性和更少的幻觉。

一个提示的例子，克劳德2.1拒绝回答，而克劳德3认为它是安全的。

一些AI悲观主义者声称，我们正在走向AI冬天，LLM模型的性能正在达到一个平台，但Anthropic不同意。该公司表示，它不相信“模型智能已经接近极限”。

它计划在未来为Claude 3带来几个有趣的升级，增加更先进的代理功能，包括工具使用和交互式编码（REPL）。