来自Meta和加州大学圣地亚哥分校(UCSD)的研究人员开发了一种改进LLMS调用软件工具和与软件工具交互的方法–工具验证程序。
要让LLM成为有用的一般助理或代理,需要教他们如何使用各种工具或API。对LLM进行微调以使用特定工具确实有效,但对于LLM来说,真正的挑战是与新工具交互,而不需要微调或极少的演示。
当两个工具非常相似时,对于LLM来说,选择正确的工具来实现其目标是特别具有挑战性的。目前为每个工具提供几个小镜头示例的方法也会消耗LLM可用的大量上下文窗口。
工具验证器是一种自我验证方法,它使LLM能够询问自己问题,从而确定使用哪个工具以及将哪些参数传递给该工具。
为了帮助LLM,ToolVerifier首先从选项库中选择最合适的工具,然后生成合适的参数。在每一个步骤中,它都会生成问题,以帮助评估其选择并区分类似的候选工具。
以下是研究论文中的一个例子,展示了工具选择和参数澄清的过程。
ToolVerify首先确定前两个工具并生成一个验证问题。这个问题的答案导致了最终的工具选择。使用类似的方法生成参数。来源:arXiv
ToolVerify接受了由一系列合成工具组成的数据培训,包括旅行、银行和日历工具及其相关描述。它接受的培训是纯粹根据标题和说明选择适当的工具。
在接受了工具选择和参数验证培训后,研究人员使用ToolBench基准测试中的4个任务测试了ToolVerify,这些任务要求Llama 2—70B与17个以前从未见过的工具交互。
该论文中发表的结果显示,使用ToolVerify方法导致“比少数拍摄基线平均提高22%,即使在候选工具之间的差异非常细微的情况下也是如此。
工具台基准测试中的Weather、Booking、Home和Cat任务的成功率百分比(%),比较使用和不使用ToolVerify的模型。来源:arXiv
结果表明,ToolVerify在LLM的刀具选择和精确的参数生成方面有了实质性的改进。该方法只针对单工具而不是多工具交互进行了训练和测试,但尽管如此,它还是有前途的。
工具增强的LLMS是将人工智能用作通用代理的一个令人兴奋的发展。一旦LLM学会使用多种工具来实现一个目标,它们对我们的用处将比现在更大。
人工智能助理为你预订航班、协调会议或为你购物的未来似乎并不遥远。