OpenAI发布SuperAlign项目的首个结果

AI行业新闻1年前 (2023)发布 yundic
497 0 0

目前的人工智能模型能够做很多不安全或不受欢迎的事情。人类的监督和反馈使这些模型保持一致,但当这些模型变得比我们更聪明时,会发生什么?

OpenAI表示,我们有可能在未来10年内看到比人类更聪明的人工智能的诞生。随着智能的增加,人类可能不再能够监督这些模型。

OpenAI的Superalignment研究团队专注于为这种可能性做好准备。该团队于今年7月成立,由Ilya Sutskever共同领导,自从Sam Altman被解雇和随后重新雇用以来,他一直处于阴影中。

OpenAI在一个令人清醒的背景下提出了这个项目的理由,该公司承认“目前,我们没有一个解决方案来引导或控制一个潜在的超级智能人工智能,并防止它变得流氓。

但你要如何准备去控制那些还不存在的东西呢?该研究小组刚刚发布了第一个实验结果,因为它试图做到这一点。

弱到强推广

就目前而言,人类仍处于比人工智能模型更强的智能地位。像GPT-4这样的模型使用强化学习人类反馈(RLHF)来指导或调整。当模型的输出不受欢迎时,人类训练师会告诉模型‘不要那样做’,并对模型进行奖励,肯定其期望的表现。

目前这是可行的,因为我们对当前模型的运作方式有了相当的了解,而且我们比它们更聪明。当未来的人类数据科学家需要训练超级智能人工智能时,智能角色将被颠倒。

为了模拟这种情况,OpenAI决定使用旧的GPT模型(如GPT—2)来训练更强大的模型(如GPT—4)。GPT—2将模拟未来的人类训练师,试图微调一个更智能的模型。

OpenAI发布SuperAlign项目的首个结果

人工智能训练场景:当前,未来和OpenAI的模拟。来源:OpenAI

该研究报告解释说:“就像人类监督超人模型的问题一样,我们的设置是我们所谓的弱到强学习问题的一个实例。

在实验中,OpenAI使用GPT-2在NLP任务、国际象棋谜题和奖励建模上对GPT-4进行了优化。然后,他们测试了GPT-4在执行这些任务时的表现,并将其与GPT-4模型进行了比较,GPT-4模型接受了关于任务的“基本事实”或正确答案的培训。

结果是有希望的,因为当GPT-4被较弱的模型训练时,它能够很强地泛化并表现出比较弱的模型更好的性能。这表明,较弱的智力可以为较强的智力提供指导,然后较强的智力可以在培训的基础上发展。

把它想象成一个三年级的学生教一个非常聪明的孩子一些数学,然后让聪明的孩子在最初的训练基础上继续做12年级的数学。

性能差距

研究人员发现,由于GPT—4是由一个不太智能的模型训练的,该过程将其性能限制在与经过适当训练的GPT—3.5模型相当的水平。

这是因为更聪明的模型会从较弱的主管那里学习一些错误或糟糕的思考过程。这似乎表明,使用人类来训练超级智能人工智能会阻碍人工智能发挥其全部潜力。

OpenAI发布SuperAlign项目的首个结果

比较GPT—2、由GPT 2训练的GPT—4、由GPT—2训练的更有效的GPT—4和基于正确答案训练的GPT—4的性能。

研究人员建议在自举方法中使用中间模型。该论文解释说:“我们不直接对齐非常超人的模型,而是可以先对齐一个稍微有点超人的模型,然后用它来对齐一个更聪明的模型,等等。

OpenAI正在为这个项目投入大量资源。该研究小组表示,它已经将“我们在未来四年内获得的20%的计算量用于解决超级智能对齐问题。

它还向希望协助研究的个人或组织提供1000万美元的赠款。

他们最好尽快弄清楚这件事。一个超级智能的人工智能可能会写出一百万行复杂的代码,而

© 版权声明

相关文章

暂无评论

暂无评论...