研究人员推出了FANToM,这是一种新颖的基准测试,旨在严格测试和评估大型语言模型(LLM)对心智理论(ToM)的理解和应用。
心智理论指的是将信念、欲望和知识归因于自己和他人的能力,并理解他人拥有与自己不同的信念和观点。
理论被认为是智慧动物所拥有的意识的基础。除了人类,灵长类动物,如猩猩,大猩猩和黑猩猩,以及一些非灵长类动物,如鹦鹉和乌鸦(乌鸦)家族成员被认为有ToM。
随着人工智能模型变得越来越复杂,人工智能研究人员正在寻找评估TOM等能力的新方法。
名为Fantom的新基准测试由艾伦人工智能研究所、华盛顿大学、卡内基梅隆大学和首尔国立大学的研究人员创建,将机器学习模型纳入反映现实生活中交互的动态场景。
有了FANToM,角色进入和退出对话,挑战人工智能模型,以保持准确的理解谁知道在任何给定时刻。
将大型语言模型(LLM)应用到FANToM中发现,即使是最先进的模型也难以维护一致的ToM。
这些模型的表现明显低于人类参与者,凸显了人工智能在理解和驾驭复杂社交互动方面的局限性。
事实上,人类主宰了每一个类别,如下所示。
与流行的LLM相比,人类在回答与Tom相关的问题方面要优越得多。资料来源:幻影。
一个有趣的侧面是,10月份版本的GPT—4模型迭代被6月初击败,这可能支持了最近用户中的轶事, ChatGPT变得更糟.
FANToM还揭示了改进LLM ToM的技术,例如思想链推理和其他微调方法。
然而,人工智能和人类ToM技能之间的差距仍然很大。
人工智能向类似人类的语言技能飞跃
在一个有点相关但独立的 发表在《自然》杂志上的研究科学家们开发出了一种神经网络,能够进行类似人类的语言泛化。
这种新的神经网络展示了一种令人印象深刻的能力,可以将新学到的单词整合到现有的词汇中。然后,它可以在不同的上下文中使用这些单词,这是一种被称为系统概括的认知技能。
人类自然地表现出系统的概括,无缝地将新词汇融入他们的曲目中。
例如,一旦有人学会了“光弹”这个词,他们几乎可以立即将其应用于各种场合。新的俚语不断涌现,人们自然而然地将其吸收到自己的词汇中。
研究人员对自己的自定义神经网络和ChatGPT进行了一系列测试,发现ChatGPT在性能上落后于自定义模型。
虽然像ChatGPT这样的LLM在许多会话场景中表现出色,但它们在其他场景中表现出明显的不一致性和差距,这是新的神经网络解决的问题。
为了研究语言交流的这方面,研究人员进行了一项涉及25名人类参与者的实验,评估他们在不同环境中应用新学到的受试者被引入一种伪语言,由代表各种行为和规则的无意义单词组成。
经过一个训练阶段,参与者擅长将这些抽象规则应用于新的情况,展示了系统的概括。
当新开发的神经网络被暴露在这个任务中时,它反映了人类的表现。 然而,当ChatGPT受到同样的挑战时,它会出现明显的困难,根据具体任务的不同,有42%到86%的时间失败。
这一点意义重大,原因有两个。首先,你可以争辩说,在这项特定的任务中,这种新的神经网络有效地超过了GPT-4-这是足够令人印象深刻的。其次,本研究揭示了教人工智能模型如何像人类一样泛化新语言的新方法。
正如德国奥斯纳布吕克大学自然语言处理专家Elia Bruni所描述的那样,“将系统性注入神经网络是一件大事。
总之,这两项研究为训练更智能的人工智能模型提供了新的方法,这些模型在语言学和心理理论等关键领域可以与人类匹敌。
来自爱丁堡大学和西班牙国家研究委员会IBBTEC—CSIC的一个国际研究小组使用人工智能来加速抗衰老药物的发现。
他们的 研究 发现了3种潜在的衰老药物,能够减缓衰老和预防与年龄有关的疾病。这些药物的作用是消除衰老细胞,通常被称为“僵尸细胞”。这些细胞保持代谢活性,但不能复制。
虽然阻止细胞复制是一种防御机制,以防止细胞损伤的扩散,但这并不完全简单。
这种保护措施的主要目的是防止遭受DNA损伤的细胞的增殖,例如,因暴露于阳光而受损的细胞。通过停止这些受损细胞的复制,身体确保这种损伤不会扩散到更多的细胞。
然而,这些停止分裂的细胞,即所谓的衰老细胞,可能会造成潜在的伤害。当它们进入衰老阶段时,它们开始释放已知会引起炎症的蛋白质。
这可能会影响邻近的健康细胞,可能会造成炎症环境。 随着时间的推移,这种炎症的积累可能导致各种健康并发症。
例如,炎症与许多疾病有关,包括神经系统和退行性疾病、2型糖尿病、肺纤维化、骨关节炎和癌症。
因此,虽然细胞复制的停止对于防止DNA损伤的扩散至关重要,但如果处理不当,与衰老细胞相关的炎症反应可能导致其他健康问题。
这就是抗衰老药物可以发挥作用的地方。
AI的作用
先前对实验室小鼠的研究表明,抗衰老药物通过消除衰老细胞而保留健康细胞来改善这种炎症情况。
虽然大约有80种已知的senolytics存在,但只有达沙替尼和槲皮素两种组合已经在人体中进行了测试。
药物开发成本极高,通常需要10到20年的时间,这是药物开发管道中的一个重大瓶颈。在这项研究中,研究人员使用机器学习(ML)来加速新的衰老药物的发现。
他们在现有的senolytics和非senolytics上训练人工智能模型,使人工智能能够区分它们,并预测未知分子成为senolytics的可能性。
在评估的4340个分子中,AI标记出21个在5分钟内具有很高的可能性。
这项研究的作者之一,Vanessa Smer—Barreto博士, 告诉谈话 如果在实验室进行传统测试,仅购买这些化合物就需要5万英镑,不包括设备和设置成本。
在对健康和衰老细胞进行体外测试后,21个分子中的3个,香附素、齐墩果苷和LinkedIn,有效地消除了衰老细胞,而保留了正常细胞。
在进一步的测试中,夹竹桃植物中发现的一种化合物夹竹桃苷的表现超过了同类中最著名的敏感剂。
该团队目前正在人体肺组织上测试3种候选senolytics,预计在大约两年内得出结果。
在过去的几个月里,人工智能已经已确定的潜在抗生素有效地杀灭耐药细菌,一家总部位于香港的生物技术公司获准开始临床试验人工智能发现的药物。
人工智能对分子进行复杂分析的能力正在极大地加速药物开发管道,为解决常见和难以治疗的疾病和疾病开辟了新的机会。