Claude.ai
与Claude 2.0相比,Claude 2.1提供了显著的性能改进。最大的升级可能是它的上下文窗口翻了一番,但还有其他一些令人印象深刻的功能。
Anthropic的博客文章更详细,但这里是一个简化的升级摘要。
上下文窗口
模型的上下文窗口决定了它可以在内存中保留多少个令牌。克劳德2.1现在有200,000个令牌上下文窗口,是克劳德2.0的两倍,是行业中最大的。作为比较,GPT-4 Turbo的上下文窗口为128k。
这意味着你可以用大约15万字或500页的篇幅与克劳德聊天,并提出与材料相关的问题。理论上说。
格雷格·卡姆拉德(Greg Kamradt)对克劳德2.1的回忆能力做了一个压力测试,随着上下文的增长,当回忆的事实在文档中间的某个地方时,它的准确性就在挣扎。
Claude 2.1(200K令牌)-压力测试长上下文召回
我们都喜欢增加上下文长度—但性能是什么样的?
人类很早就接触到了克劳德2.1,所以我重复了我在GPT-4上所做的“大海捞针”分析
以下是我发现的:… www.example.com
-格雷格·卡姆拉特(@GregKamradt)2023年11月21日
尽管存在一些回忆准确性的问题,但它仍然相当令人印象深刻。
更加准确和诚实
克劳德2.1犯的错误更少,也不会经常对你撒谎。比以前更有可能给出正确答案。
像其他人工智能模型一样,它仍然会产生幻觉,但它的产生率大约是Claude 2.0的一半。
克劳德2.1在智力上也得到了升级。当它不知道答案时,它拒绝回答一个问题的可能性几乎是它的两倍,而不是编造一些东西。
克劳德2.1回答困难问题时的准确性。来源:Anthropic
API工具使用
克劳德现在可以与用户的数据库交互,在网络资源中搜索答案,或者通过API与其他工具交互。
Anthropic表示,用户现在可以定义一组工具,提出一个问题,然后Claude将决定使用哪些工具来回答问题。
Claude已经与Zapier集成,因此将自然语言翻译成API或函数调用的额外能力可能是巨大的。我们能很快看到Anthropic的OpenAI的GPL版本吗?
工具使用功能还处于测试阶段,所以我们将拭目以待,看看它有什么能力。
系统提示
这个特性允许API调用在输入人工提示之前给Claude上下文和如何响应的指示。
这意味着你可以让Claude假设一个特定的角色或声音,并告诉它在与用户交互时应该做或不应该做的事情。随后与克劳德的互动将使聊天回应在角色中停留更长时间。
如果你想体验Claude 2.1,你可以前往claude.ai的聊天界面。不过,200k上下文窗口仅适用于Claude Pro用户。