又一天,OpenAI-Altman传奇的另一个转折。
这一次,Altman被解雇的原因是一个世界末日般的强大的人工智能模型坐在OpenAI研究实验室里,或者至少这是媒体来源所说的。
就在Sam Altman暂时离开OpenAI的几天前,接受路透社采访的消息人士声称,该公司的研究人员向董事会发送了一封警告信。
直到最近才公开披露的这封信,引发了人们对人工智能突破的担忧。据两位知情人士透露联系了路透社足以威胁人类
消息人士称,这款有问题的车型可能在导致阿尔特曼被解雇的事件中起到了关键作用。
该项目被称为Q *(发音为Q—Star)。Q * 被OpenAI的一些人视为寻求人工通用智能(AGI)的潜在里程碑。Q * 是机器学习方法的融合,包括Q—learning,可以追溯到20世纪80年代。
虽然媒体喜欢末日般的人工智能故事,但这些匿名消息人士表示,董事会解雇奥特曼的决定是因为担心在没有充分了解其影响的情况下过早将Q*商业化。
然而,路透社未能独立证实研究人员所说的Q*的能力。
此外,路透社还没有接触到这封信,负责撰写这封信的工作人员也没有回应询问。
它不会给我们留下太多的工作空间。你必须考虑到几乎每个OpenAI员工都恳求奥特曼回归的事实,这似乎不太可能只有两个人担心Q*。
在奥特曼拒绝了对Q * 的担忧后,董事会决定解雇奥特曼——或者至少,这是这封信及其相关新闻报道所声称的。
但这有什么实质性的吗?或者这只是OpenAI董事会戏剧中的另一个奇怪和投机的转折?
Q * 是什么,它是如何工作的?
在推测的同时,Q *(Q—Star)可以结合Q学习和A *(A Star)搜索算法的元素,通过一个称为“从人类反馈强化学习”(RRHF)的过程进行优化。
这并不完全是独一无二的,之前有报纸猜测过与Q*相关的技术。这些可以为我们提供一些关于它是如何运作的线索。
让我们分解每个组件,以了解它们在Q * 中如何交互:
Q学习
Q-学习是一种已有30多年历史的强化学习算法。它旨在帮助代理学习在给定状态下采取的最佳操作,以最大化奖励。这是通过学习被称为Q函数的值函数来实现的,该函数估计在给定状态下采取给定操作的预期用途。
在OpenAI开发的生成式人工智能模型的背景下,Q学习可以确定对话或解决问题任务中的最佳单词或响应序列。
每个单词或响应都可以被看作是一个动作,而状态可以是上下文或已经生成的单词序列。
Q中的一个搜索算法
A * 是一种流行的图搜索算法,以其在图中寻找从起始节点到目标节点的最短路径的效率和有效性而闻名。
提到Q * 需要“庞大的计算资源”并能够解决数学问题,这表明A * 可以与Q学习集成,以处理复杂的多步骤推理过程。
该算法可以通过存储中间结果和有效地搜索可能的动作序列(或单词/响应)来优化多个步骤的决策。
RLHF的作用
RLHF涉及使用人类反馈来指导学习过程来训练AI模型。这可能包括演示期望的结果,纠正错误,并提供细微差别的反馈以改进模型的理解和性能。
在Q * 中,RLHF可以用来改进模型的决策和解决问题的能力,特别是在复杂的多轮场景中,细微的理解和推理至关重要。
这就是Q*可能是如何工作的,但它并没有真正告诉我们它是如何或为什么如此令人担忧的,也没有提供任何关于这封信所声称的真相的清晰度。
只有时间才能证明Q * 是否真实,是否会构成风险。