我们可以增加对人工智能代理的可见性，使其更安全吗？

80 0 0

人工智能代理在有限的监督下执行复杂的目标导向任务。一组研究人员提出了三项措施，可以提高对人工智能代理的可见性，使其更安全。

大多数人认为人工智能是聊天机器人，比如ChatGPT。您用一些文本提示它，它就会生成一个响应。人工智能真正令人兴奋的发展是看到它被部署为一个代理，一个可以自主执行任务以追求最终目标的系统。

一个简单的例子是Rabbit R1设备，它可以使用人工智能作为代理来浏览网页并为用户预订航班。这些代理对他们如何完成任务或他们与哪些其他代理交互以实现他们的目标具有有限的监督。

研究人员调查了人工智能代理构成的潜在风险，以及如何通过增加对某些人工智能代理在何处、为什么、如何以及由谁使用的可见性来减轻这些风险。

该论文的作者来自魁北克人工智能研究所，哈佛大学，哈佛法学院，牛津大学，Cooperative AI Foundation，剑桥大学和多伦多大学。

人工智能代理风险

如果人工智能代理被赋予一个优化的目标，它可能会削减道德或法律的角落来实现其目标，或者如果循环中没有人类，则会以可能造成实质性伤害的方式行事。

研究人员确定了与监督不力的人工智能代理相关的五个主要风险。

恶意使用-低技能的恶意行为者可能会使用能力很强的代理来自动化网络犯罪中的端到端管道，或者开发有害的生物或化学工具。
过度依赖和剥夺权力 过度依赖人工智能代理在金融或法律系统等高风险情况下自动化复杂任务可能会产生严重后果。
延迟和扩散影响-如果为人工智能提供了长期目标，那么它做出的糟糕决策的影响可能只会在部署很长时间后才会显现出来。延迟影响还可能导致损害在检测到之前扩散到整个组织或社区。
多主体风险-人工智能代理可能已作为单个系统进行了测试，但当多个代理相互作用时可能会出现意想不到的风险。
次级代理-代理可以决定为了实现其目标，它需要创建自己的子代理。它可以调用自身的多个副本，或者微调另一个代理。在不知道某个代理是否创建了子代理的情况下，很难检测到有害行为。

我们需要治理结构来建立指导方针，让关键利益相关者承担责任。要实现这一点，更好地了解已部署的人工智能代理是至关重要的。

研究人员提出了三种方法。

代理标识符 —确保一个代理标识自己，将使人类、组织或其他代理能够管理他们与它的交互，还有助于将一个操作与特定代理以及制定或部署该操作的组织联系起来。
实时监控 实时监控代理的行为将使开发人员能够立即标记违反明确规则的行为，或监控代理与其他代理的交互。它还可以标记创建多个自身实例、超过财务限制或使用超过特定限制的计算资源的代理。
活动日志 —实际上，代理人造成的伤害将在事后被发现，而不是先发制人。记录代理的某些输入和输出的活动日志对于确定问题是如何出错的以及要修复的内容非常有用。

如果这些措施得到实施，它将有助于减轻人工智能代理存在的风险。然而，在不违反隐私法的情况下实施实时监控和活动日志可能具有挑战性。

随着人工智能代理越来越独立地完成我们为他们设置的工作，我们肯定正在远离基于应用的交互。但也有风险。报告指出，管理这些风险需要政治意愿、社会技术基础设施和公众影响力。提高人工智能代理如何运作的可见性对于实现这一目标至关重要。