尽管LLM的快速发展,我们对这些模型如何应对更长的投入的理解仍然很差。
来自巴伊兰大学和艾伦人工智能研究所的Mosh Levy、Alon Jacoby和Yoav Goldberg研究了大型语言模型(LLM)的性能如何随着要处理的输入文本长度的变化而变化。
他们专门为此目的开发了一个推理框架,使他们能够在受控环境中剖析输入长度对LLM推理的影响。
提问框架提出了同一个问题的不同版本,每个版本都包含了回答问题的必要信息,并补充了长度和类型不同的、无关的文本。
这使得能够将输入长度作为变量隔离,确保模型性能的变化可以直接归因于输入长度。
主要结论
Levy、Reverby和Goldberg发现,LLM在输入长度远低于开发人员声称他们可以处理的情况下,表现出显著的下降。他们在这项研究中记录了他们的发现。
在所有版本的数据集中,都一致观察到下降,这表明处理较长输入的系统性问题,而不是与特定数据样本或模型架构相关的问题。
正如研究人员所描述的那样,“我们的研究结果表明,LLM的推理性能在比其技术最大值短得多的输入长度时显著下降。我们表明,退化趋势出现在我们数据集的每个版本中,尽管强度不同。
随着输入的大小增加,执行推理任务的能力降低。这些输入由相关(以红色突出显示)和不相关(以灰色显示)文本组成,它们来自不同的地方,并逐渐扩展。识别可能随机位于输入中的两个特定文本段对于准确回答是必要的。性能数据从600个样本中汇总而来。来源:Via Arxiv。
此外,该研究还强调了传统的度量标准,如困惑度,通常用于评估LLM,如何无法与模型在涉及长输入的推理任务中的性能相关。
进一步的研究发现,性能的下降不仅仅取决于不相关信息的存在(填充),而且即使这样的填充由重复的相关信息组成,也可以观察到。
当我们将两个核心跨度放在一起并在它们周围添加文本时,准确性已经下降了。在跨度之间引入段落,结果下降得更多。当我们添加的文本与任务文本相似时,以及当它们完全不同时,都会发生丢弃。3/7 www.example.com
– Mosh Levy(@ mosh_levy)2024年2月26日
这表明LLM面临的挑战在于过滤掉噪声和对较长文本序列的固有处理。
忽略指令
研究中强调的故障模式的一个关键领域是,随着输入长度的增加,LLMS倾向于忽略嵌入在输入中的指令。
模型有时也会产生反应,表明不确定或缺乏足够的信息,例如“文本中没有足够的信息”,尽管有所有必要的信息。
总的来说,随着输入长度的增长,法学硕士似乎始终难以优先考虑并专注于关键信息片段,包括直接指令。
在回答中表现出偏见
另一个值得注意的问题是,随着输入时间的延长,模型的反应中的偏差增加。
具体而言,LLM倾向于回答“假”输入长度增加。这种偏差表明模型中概率估计或决策过程的偏差,可能是一种防御机制,以应对由于输入长度较长而增加的不确定性。
偏爱“虚假”回答的倾向也可能反映了训练数据的潜在不平衡或模型训练过程的伪像,其中否定的回答可能被过多地表达或与不确定性和模棱两可的背景相联系。
随着输入长度的增加,模型表现出倾向于回答二元问题为“假”。资料来源:Via ArXiv。
这种偏见影响了模型输出的准确性,并引起人们对LLM在需要细微理解和公正性的应用中的可靠性和公平性的担忧。
在模型训练和微调阶段实施稳健的偏差检测和缓解策略对于减少模型响应中的不必要偏差至关重要。
e确保训练数据集多样化、平衡并代表各种场景,也有助于最大限度地减少偏差并提高模型的泛化能力。
这有助于其他近期研究 这同样突出了法学管理如何运作的根本问题,从而导致一种情况,即随着时间的推移,“技术债务”可能威胁到模型的功能和完整性。