宪法人工智能能解决有问题的人工智能行为吗?“”

AI行业新闻1年前 (2023)发布 yundic
158 0 0

随着人工智能模型继续融入我们的日常生活,人们对其所谓的“护栏”的局限性和可靠性的担忧与日俱增。

像GPT—3.5/4/4V等无处不在的人工智能模型具有内置的护栏和安全措施,以防止它们产生非法、不道德或其他不想要的输出。

然而,这些安全功能远非不可阻挡,模型正在证明它们有可能脱离护栏——或者说脱轨。

部分问题是护栏没有跟上模型的复杂性和多样性。

最近几周,由微软支持的OpenAI披露了ChatGPT的主要增强功能,使其能够仅使用语音进行交互,并通过图像和文本响应查询。这款具有多模式图像功能的GPT—4被称为“GPT—4V”。

与此同时,Meta宣布推出人工智能助手,为WhatsApp和Instagram用户推出几个名人聊天机器人,以及一系列其他低调的人工智能功能,如人工智能贴纸。

人们迅速操纵了Meta的 人工智能贴纸生成 滑稽而令人震惊的卡通形象,如卡尔·马克思裸体或马里奥手持突击步枪。

随着人工智能商业化的竞争加剧,旨在控制人工智能行为的保障措施——并防止它们生成有害内容、错误信息或协助非法活动——被证明是脆弱的。

宪法AI是答案吗?

为了解决这一问题,人工智能开发公司正在努力创建“人工智能宪法”,这是人工智能模型必须遵守的一套基本原则和价值观。创业公司Anthropic是第一批倡导“宪法人工智能”的人之一, 2022年论文.

Google DeepMind还在2022年为其聊天机器人Sparrow制定了宪法规则,以维持“有用、正确和无害”的对话。

Anthropic的人工智能章程源自各种来源,包括《联合国人权宣言》和苹果的服务条款。该模式配备了基本的道德原则,驱动自下而上的行为,而不是自上而下强加护栏。

这种方法不是用无数人类提供的正确或错误的例子来费力地训练人工智能,而是嵌入了人工智能遵守的一套规则或原则——一种“宪法”。

首先,人工智能被引入到一种情况中,然后被提示批评其响应,最后,根据修改后的解决方案微调其行为。

接下来,系统进入强化学习阶段。在这里,它衡量自己答案的质量,区分出更好的答案。随着时间的推移,这种自我评估会完善它的行为。

问题的关键在于,人工智能使用其反馈回路来确定奖励,这种方法被称为“来自人工智能反馈的RL”(RLAIF)。当面对潜在的有害或误导性问题时,人工智能不会只是回避或拒绝。相反,它正面解决了这个问题,解释了为什么这样的请求可能会有问题。

这是在创造机器方面迈出的一步,不仅可以计算,而且可以以结构化的方式“思考”。

Anthropic首席执行官兼联合创始人Dario Amodei强调了理解人工智能模型内部运作的挑战。他建议,制定一部宪法将使规则透明和明确,确保所有用户都知道该期待什么。

重要的是,它还提供了一种方法,如果模型不遵守概述的原则,它可以让模型负责。

尽管做出了这些努力,人工智能结构本身也不是没有缺陷,而Anthropic等开发商的模型也显得脆弱, 越狱 和其他人一样

没有普遍接受的方法来培训安全和合乎道德的人工智能模型

从历史上看,人工智能模型一直是使用一种称为人工反馈强化学习(RLHF)的方法来改进的,人工智能的响应被大型人类评估团队分类为“好”或“坏”。

虽然在某种程度上有效,但该方法因缺乏准确性和特异性而受到批评。为了确保人工智能的道德和安全性,企业正在探索替代解决方案。

例如,OpenAI采用了“红色团队”的方法,雇佣了不同学科的专家来测试和识别其模型中的弱点。

OpenAI的系统以迭代的方式运行:AI模型生成输出,人工审核员根据特定的指导方针评估并纠正这些输出,模型从反馈中学习。来自这些评审员的培训数据对模型的伦理校准至关重要。

ChatGPT在面对有争议或敏感话题时通常会选择保守的回应,有时会避免直接回答。这与宪法AI形成鲜明对比,在宪法AI中,当提出潜在有害的询问时,该模式应澄清其保留,积极展示基于其基本规则的推理。

本质上,虽然ChatGPT的伦理导向严重依赖人类反馈,但宪法人工智能使用了一套基于规则的框架,具有自我审查机制,并强调透明推理。

最后,开发“安全”人工智能可能没有一刀切的方法,有些人,如埃隆·马斯克,批评消毒的“唤醒”人工智能的概念。研究已经证明,即使是符合宪法的人工智能也可以越狱,操纵它们进入不可预测的行为。

悉尼大学人工智能伦理研究员丽贝卡·约翰逊指出,人工智能工程师和计算机科学家通常以找到明确的解决方案为目标来处理问题,这可能并不总是能解释人性的复杂性。

“我们必须开始将生成人工智能视为人类的延伸,它们只是人类的另一个方面,”她说。

综合控制人工智能作为一种简单的技术系统,只会成为 随着它的发展,我们这样的生物体也是如此。

分歧,无论是不是被挑起,也许都是不可避免的。

© 版权声明

相关文章

暂无评论

暂无评论...