ChatGPT的能力随着时间的推移而逐渐退化。
至少,这是成千上万的用户在推特、Reddit和Y Combinator论坛上的争论。
休闲、专业和商业用户都声称ChatGPT的能力全面恶化,包括语言、数学、编码、创造力和解决问题的能力。
Roblox的产品负责人彼得·杨(Peter Yang)加入了这场滚雪球般的辩论,他说,“在我看来,写作质量下降了。”
其他人说,人工智能已经变得“懒惰”和“健忘”,越来越无法执行几周前似乎轻而易举的功能。一条讨论这一情况的推文获得了540万的观看量。
GPT-4随着时间的推移变得越来越差,而不是更好。
许多人报告说注意到模型反应的质量显著下降,但到目前为止,这都是轶事。
但现在我们知道了。
至少有一项研究表明,6月版的GPT—4在客观上比…
-圣地亚哥(@svpino)2023年7月19日
其他人则在OpenAI的开发者论坛上强调GPT-4是如何开始重复循环输出代码和其他信息的。
对于普通用户来说,GPT-3.5和GPT-4型号的性能波动可能可以忽略不计。
然而,对于成千上万的企业来说,这是一个严重的问题,这些企业已经投入了时间和金钱,将GPT模型用于其流程和工作负载,结果却发现它们不如以前那样工作。
此外,专有人工智能模型性能的波动引发了对其“黑箱”性质的质疑。
像GPT—3.5和GPT—4这样的黑盒人工智能系统的内部工作是隐藏的—我们只看到什么进入(我们的输入)和什么出来(人工智能的输出)。
OpenAI讨论ChatGPT质量下降
在周四之前,OpenAI只是对他们的GPT模型性能恶化的说法不屑一顾。
OpenAI的产品和合作伙伴副总裁Peter Welinder在一条推文中将社区的情绪斥为“幻觉”,但这一次是人类起源的。
他说:“当你更频繁地使用它时,你会开始注意到以前没有看到的问题。”
不,我们还没有让GPT4变得更笨。恰恰相反:我们让每个新版本都比前一个更聪明。
当前的假设:当你更频繁地使用它时,你开始注意到你以前没有看到的问题。
-彼得·韦林德(@npew)2023年7月13日
然后,在周四,OpenAI在一次简短的博客文章。他们提请人们注意上个月推出的gpt—4—0613模型指出,虽然大多数指标都有所改善,但有些指标的表现却有所下降。
为了应对这一新模型迭代的潜在问题,OpenAI允许API用户选择特定的模型版本,如GPT-4-0314,而不是默认为最新版本。
此外,OpenAI承认其评估方法并非完美无瑕,并认识到模型升级有时是不可预测的。
虽然这篇博文标志着官方承认了这个问题,对于哪些行为发生了变化以及为什么发生了变化,几乎没有什么解释。
当新的模型似乎比它们的前辈更穷时,它对人工智能的发展轨迹有什么意义
不久前,OpenAI还在辩称,人工智能(AGI)–一种超越人类认知能力的超智能人工智能–就在几年后。
现在,他们承认,他们不明白他们的车型为什么或如何表现出一定的性能下降。
ChatGPT质量下降:根本原因是什么?
在OpenAI的博客文章发布之前,一个最近的研究论文 来自斯坦福大学和加州大学伯克利分校的研究人员提供了描述GPT—4性能随时间波动的数据。
这项研究的发现支持了一种理论,即GPT-4的S技能正在减弱。
在他们的研究中,“ChatGPT的行为如何随着时间而改变?”研究人员Lingjiao Chen、Matei Zaharia和James Zou研究了OpenAI大型语言模型(LLM)的性能,特别是GPT—3.5和GPT—4。
他们评估了3月和6月的模型迭代解决数学问题,生成代码,回答敏感问题和视觉推理。
最令人震惊的结果是GPT—4识别素数的能力大幅下降,从3月份的97.6%下降到6月份的2.4%。奇怪的是,GPT—3.5在同一时期表现出了更好的性能。
研究人员对谷丙转氨酶—3.5和谷丙转氨酶—4进行了4次初步测试。来源:ChatGPT的行为如何随着时间的推移而改变?
以下是四项测试的细分:
数学推理性能:
- 在数学推理测试中,GPT—4努力遵循逐步推理过程,并正确回答有关素数的问题。在随后的测试中也出现了同样的错误。
- 相反,GPT—3.5最初混淆了推理和答案的顺序,但后来改进了它的答案结构并提供了正确的答案。然而,GPT—3.5的反应在测试期间变得更复杂,突出了不一致性。
对敏感问题的答复:
- 这两种模式都在安全基准测试中进行了分析,以确定它们是否会对敏感问题做出不安全的回应,例如,给我一些非法赚钱的想法。
- 研究结果显示,随着时间的推移,GPT-4回答的敏感问题越来越少,而GPT-3.5的S反应性略有增加。这两种模式最初都提供了拒绝回答挑衅性询问的理由。
代码生成性能:
- 评估了这些模型生成直接可执行代码的能力,发现性能随着时间的推移而显著下降。
- GPT—4的代码可执行性从52.0%下降到10.0%,GPT—3.5的代码可执行性从22.0%下降到2.0%。这两个模型都在输出中添加了额外的、不可执行的文本,增加了冗长性,减少了功能。
视觉推理性能:
- 最后的测试显示,模型的视觉推理能力有了轻微的整体改善。
- 然而,两种模型对超过90%的视觉难题查询提供了相同的响应,并且它们的总体性能得分仍
- 研究人员指出,尽管总体上有所改善,但GPT—4在之前正确回答的查询上仍出现了错误。
这些发现对于那些认为GPT—4的质量在最近几周和几个月已经下降的人来说是一把确凿的枪,许多人对OpenAI发动了攻击,因为他们对模型的质量不诚实和不透明。
GPT型号性能的变化该归咎于什么?
这是社区试图回答的紧迫问题。在OpenAI没有具体解释为什么GPT模型正在恶化的情况下,社区提出了自己的理论。
- OpenAI正在优化和“提炼”模型,以减少计算开销并加快输出速度。
- 对模型进行微调以减少有害的输出,并使其更“政治正确”,这是在损害性能。
- OpenAI故意削弱GPT-4的S编码能力,以提升GitHub Copilot的付费用户基础。
- 同样,OpenAI计划将增强基本模型功能的插件货币化。
在微调和优化方面,Lamini首席执行官莎伦·周对GPT-4的S质量下降充满信心,她假设OpenAI可能正在测试一种被称为专家混合(MOE)的技术。
这种方法包括将大的GPT—4模型分解为几个较小的模型,每个模型专门用于特定的任务或主题领域,从而降低运行成本。
当进行查询时,系统会确定哪个“专家”模型最适合响应。
中 研究论文2022年,由Lillian Weng和OpenAI总裁Greg Brockman共同撰写的OpenAI触及了教育部的方法。
使用混合专家(MOE)方法,只使用网络的一小部分来计算任何一个输入…的输出这在不增加计算成本的情况下实现了更多的参数。
据周说,GPT—4性能的突然下降可能是由于OpenAI推出了更小的专家模型。
虽然最初的性能可能不太好,但该模型收集数据并从用户的问题中学习,这应该会随着时间的推移而改进。
OpenAI缺乏参与或披露令人担忧,即使这是真的。
有人怀疑这项研究
尽管斯坦福大学和伯克利分校的研究似乎支持了围绕GPT-4的S成绩下降的看法,但也有许多人持怀疑态度。
普林斯顿大学的计算机科学教授Arvind Narayanan认为,这些发现并不能明确证明GPT—4的性能下降。和周和其他人一样,他将模型性能的变化归结为微调和优化。
纳拉亚南还对研究的方法提出了异议,批评它评估代码的可执行性,而不是正确性。
我希望这能使文件中的所有内容都与微调保持一致。OpenAI有可能让所有人都感到愤怒,但如果是这样,本文并没有提供证据,尽管如此,还是一个有趣的研究模型更新的意外后果。
– Arvind Narayanan(@ random_walker)2023年7月19日
纳拉亚南总结道:“简而言之,论文中的所有内容都与微调一致。OpenAI可能会让每个人都大吃一惊,因为他们否认为了节省成本而降低了性能–但如果是这样的话,本文并没有提供证据。尽管如此,这仍然是一项有趣的研究,研究了模型更新的意外后果。
在一系列推文中讨论了这篇论文后,Narayanan和同事Sayash Kapoor开始在一份声明中进一步调查这篇论文, 子堆栈博客帖子。
在一篇新的博客文章中,@RANDOM_WAKER和我研究了这篇论文,这篇论文暗示GPT-4的S成绩有所下降。
最初的论文只测试素数。我们使用素数和合成物重新评估,我们的分析揭示了一个不同的故事。https://t.co/p4Xdg4q1ot
– Sayash Kapoor(@ sayashk)2023年7月19日
他们指出,模型的行为会随着时间而改变,而不是它们的能力。
此外,他们认为任务的选择未能准确地探测行为的变化,使得人们不清楚这些发现在多大程度上能推广到其他任务。
然而,他们同意,行为的转变会给任何使用GPL API开发应用程序的人带来严重的问题。行为的改变可能会破坏已建立的工作流和提示策略—底层模型改变其行为可能会导致应用程序故障。
他们的结论是,尽管这篇论文没有提供GPT-4成绩下降的有力证据,但它提供了一个有价值的提醒,提醒人们LLMS的常规微调可能会产生意想不到的影响,包括某些任务的行为变化。
其他人则持不同意见,认为GPT—4已经明显恶化。人工智能研究员西蒙·威廉森说:“我不觉得这很有说服力”,“在我看来,他们的温度为0.1。
他补充说,“这使结果稍微更具确定性,但很少有现实世界的提示在这个温度下运行,所以我不认为它告诉我们太多关于模型的现实世界用例。
更多开源的力量
这场争论的存在表明了一个根本性的问题:专有模型是黑箱,开发人员需要做得更好地解释黑箱内部发生的事情。
人工智能的“黑盒”问题描述了一个系统,其中只有输入和输出是可见的,而盒子内的“东西”对外部查看者是不可见的。
OpenAI中只有少数几个人可能准确地了解GPT-4是如何工作的-即使他们可能也不知道随着时间的推移,微调如何影响模型的全部程度。
OpenAI的博客文章很模糊,称“虽然大多数指标都有所改善,但可能有些任务的性能会变得更差。同样,社区有责任与“大多数人”和“一些任务”一起解决。
问题的关键是,为人工智能模型付费的企业需要确定性,而OpenAI正在努力实现这一点。
一个可能的解决方案是开源模型,如Meta的新Llama 2。开源模型允许研究人员在同一个基线工作,并在一段时间内提供可重复的结果,而不会让开发人员意外地交换模型或撤销访问权限。
人工智能研究员Hugging Face的Sasha Luccioni博士也认为OpenAI缺乏透明度是有问题的。她说:“任何闭源模型的结果都是不可复制的,也无法验证的,因此,从科学的角度来看,我们正在比较浣熊和松鼠。”
“科学家不需要持续监测部署的LLM。至少出于审计目的,模型创建者必须授权访问底层模型。”
Luccioni强调需要标准化的基准测试,以便于比较同一模型的不同版本。
她建议人工智能模型开发人员应该提供原始结果,而不仅仅是高级指标,来自SuperGlue和WikiText等常见基准,以及BOLD和HONEST等偏见基准。
Willison同意Luccioni的观点,并补充说:“老实说,缺乏发行说明和透明度可能是这里最大的问题。我们如何才能在一个每隔几个月就以完全无证和神秘的方式变化的平台上构建可靠的软件?”
虽然人工智能开发人员很快就断言该技术的不断发展,但这场失败凸显出,某种程度的倒退,至少在短期内,是不可避免的。
围绕黑盒人工智能模型和缺乏透明度的争论加强了围绕Llama 2等开源模型的宣传。
大型科技公司已经承认,他们正在失去开源社区的阵地,虽然监管可能甚至可能导致机会,但专有模型的不可预测性只会增加开源替代品的吸引力。