自从最近推出OpenAI语言模型的最新迭代GPT-4 Turbo以来,人工智能社区的反应褒贬不一。
尽管OpenAI吹捧GPT-4 Turbo是其前身更强大、更高效的版本,但来自用户的轶事证据表明,GPT-4 Turbo的体验多种多样,特别是在需要高级推理和编程能力的领域。
基准测试的具体证据才刚刚开始浮出水面。
在一个独立的基准测试中,一个用户使用了2008—2009年官方SAT阅读测试中的章节来评估GPT—4 Turbo与GPT—4和GPT—3.5。
结果表明,在性能方面存在显著差异:
- GPT—3.5评分为690分,有10个错误答案。
- GPT—4得分为770分,只有3个错误答案。
- 在两种模式下测试的GPT—4 Turbo分别得分为740(5错误)和730(6错误)。
OpenAI声称GPT4—turbo比GPT4“更好”,但我自己进行了测试,并不认为这是真的。
我以SAT阅读为基准,这是一个很好的人类推理能力参考。参加了2008—2009年正式考试(2400分)的3个部分(67个问题),并获得了. www.example.com
-杰弗里·王(@wangzjef)2023年11月7日
其他早期的基准数据则不同地表示,
还进行了另一项初步测试基准测试,以评估这个新版本的代码编辑技能,使用AIDER,这是一个为人工智能辅助代码编辑设计的开源命令行工具。
研究发现,GPT-4 Turbo(GPT-4-1106)在编码任务中表现出了更好的性能,这当然是一项与上面的自然语言测试不同的任务。
该基准测试使用了Aider来促进用户和GPT—4模型之间的交互,以编辑本地git仓库中的代码。该测试包括完成133个Python编码练习,提供了一个结构化和定量的模型代码编辑效率和准确性评估。
该进程分两个阶段进行:
- Aider为GPT—4模型提供了包含函数存根和自然语言问题描述的初始代码文件。模型的第一个响应直接应用于编辑代码。
- 如果代码在测试套件中失败,Aider会向模型显示测试错误输出,要求它修复代码。
GPT—4—1106—预览结果
- 速度提升:与前代产品相比,GPT—4—1106—preview型号在处理速度上有了显著提高。
- 第一次尝试准确度该模型在第一次尝试时正确解决练习的成功率为53%,比之前的GPT—4版本的46%到47%的成功率有所提高。
- 更正后的业绩在获得了基于测试套件错误更正代码的第二次机会后,新模型实现了与旧的GPT—4模型相似的性能水平(约62%),成功率约为63%至64%。
编程任务的用户体验
使用GPT-4Turbo执行编码相关任务的开发人员报告说,他们的体验喜忧参半。
X和Reddit上的许多用户都注意到,该模型在编程场景中准确遵循指令或有效保持上下文的能力有所下降。在面临新型号的挑战后,一些人恢复了使用GPT-4。
一位用户在Reddit上表达了失望之情,他说:“是的,情况非常糟糕。我在一些脚本上运行GPT-4,并保留样例测试以确保其执行相同的性能。所有这些测试都没有通过新的GPT-4预览版,我不得不恢复到旧版。它不能正确地进行推理。
另一位评论说,“有些回复是疯狂的,它让我想取消订阅。
轶事几乎是无穷无尽的,另一个人说,“我粘贴了大约100行代码,只是问了一些非常基本的问题。它发回给我的代码与我刚才展示的完全不同,几乎完全错误。我从来没有见过幻觉这么严重。”
遗憾的是,我注意到一些明显的挫折,在GPT—4涡轮相比,
尤其是在遵循指示时。
我不是社区里唯一有这种感觉的人。
还没有详细测试,但希望你能注意并改进。
否则,就很失望了。– Augusdin(@ augusdin)2023年11月12日
尽管有用户报告,OpenAI还是强调了GPT-4 Turbo的进步,强调了其延长的知识截止日期至2023年4月,并增加了能够处理300多页文本的上下文窗口。
OpenAI还指出,该模型的性能优化,使其更具成本效益。然而,关于具体优化技术及其对模型功能的影响的细节仍然有限。
OpenAI首席执行官Sam Altman宣布,Turbo今天已经被编辑,要求用户再次尝试该模型,并承认存在问题。
该公司面临着类似的批评,围绕着GPT—4版本,该版本似乎自发布以来性能下降。
OpenAI面临审查制度的批评
由OpenAI开发的ChatGPT因其对审查制度和潜在政治偏见的处理而受到审查。
批评人士认为,该模式有时会表现出回避或歪曲特定主题的倾向,特别是那些被认为是政治敏感或有争议的主题。
这种行为通常被归因于训练数据和塑造人工智能反应的适度指导方针。
这些指导方针旨在防止错误信息、仇恨言论和有偏见的内容的传播,但一些用户认为这种方法会导致过度纠正,导致人工智能的反应中出现审查或偏见。
相比之下,xAI的Grok以其似乎较少限制的内容审核方法而闻名。
Grok的用户观察到,该平台似乎更愿意参与更广泛的主题,包括那些可能被ChatGPT更谨慎地过滤或处理的主题。
由埃隆·马斯克(Elon Musk)活泼的滑稽动作推动的Grok被视为“把剑”向“唤醒的AI”,ChatGPT是其旗舰。
总而言之,目前对GPT-4涡轮增压性能的基准测试极其有限,依靠坊间报道是有问题的。
OpenAI的不断增长的成功让该公司牢牢地处于人们的视线中,特别是随着xAI的Grok的发布以及对“唤醒AI”的抵制。
获得一个客观的看法,GPT—4 Turbo的性能是异常困难的目前,但争论是否ChatGPT的输出是真正改善将继续。