新物网

当前位置:首页 > 科技

科技

人工智能技术的不断进步,如何桥接人类与机器在语言理解上的重要课题

时间:2023-12-16 16:23:53 佚名
导读//当受不同主观经验影响的个体对同一信息做出不同的解释时,人际交往中的误解就会产生。在最新的人工智能领域动态中,研究人员发现这种误差不仅出现在人际交流中

aigc疑似度_aigc是什么概念_AIGC

导读//

当受不同主观经验影响的个体对同一信息做出不同的解释时,人际交往中的误解就会产生。在最新的人工智能领域动态中,研究人员发现这种误差不仅出现在人际交流中,也出现在人与大语言模型的交互中。用户无法确保他们的问题对大模型来说足够明确,且大语言模型有时候会以意想不到的方式理解看似明确的问题,从而产生不正确的回答。图1所示的例子中就存在这个问题。

aigc疑似度_AIGC_aigc是什么概念

图1 本论文中的一个典型例子

在这些对话中,GPT-4产生了三种主要的理解错误。一是GPT-4认为12月的天数是奇数(31天),所以12月是奇数月;二是GPT-4认为2月是一年中唯一一个天数不规则的月份,所以2月是奇数月;三是GPT-4认为奇偶数的概念不应该用于月份中。研究人员发现GPT-4不仅会错误理解问题,在每次查询时,它都会产生不同的输出。

随着人工智能技术的不断进步,如何桥接人类与机器在语言理解上的鸿沟是一个未来研究的重要课题。

aigc疑似度_aigc是什么概念_AIGC

原文链接:

精读笔记

一、介绍

在导读的例子中,研究人员报告了一个重要的发现:即使可以准确地检索信息,像GPT-4这样的大语言模型可能不能用他们的知识进行有效的推理。GPT-4需要一个思维链过程——依靠用户引导的后续问题——来纠正之前的错误答案。例如当被问到“你知道这意味着什么吗?”GPT -4会自我修正。研究人员进一步调查了LLM在回答这些问题时效率低下的内在原因。如其他三个对话所示,当GPT-4解释其推理时,似乎它对这些问题有几个模糊之处。

在基准数据集中,问题的模糊性是一个公认的问题。此外,本文揭示了通常用于LLM评估的基准数据集拥有人类察觉不到的歧义,但对语言模型来说是一个挑战。这些歧义导致LLM对非预期的查询提供错误的响应。为了解决这个问题,当务之急是减少模糊性,并以符合现有LLMs框架的方式将信息置于上下文环境中。

人类的思维和逻辑思维有着很大的差异,这影响了大语言模型的性能。为了解决这个问题,研究人员让大模型重述问题(如图2),并加入更多细节以便更好地回答。

aigc疑似度_aigc是什么概念_AIGC

图2 GPT-4回答原始问题和重述问题准确性比较

研究人员发现,经过重述的问题往往会增强语义的清晰度,解决了模糊性的问题。新生成的问题更加详细,并且具有更清晰的问题格式。如图2中的柱状图所示,GPT-4回答重述后的问题的准确性得到了显著的提升。

基于以上发现,研究人员提出了一种名为‘Rephrase and Respond’(RaR)的方法。它提示LLM重述给定的问题,并对问题做出响应。这个方法提高了LLM回答问题的质量。

二、方法

研究人员提出了两个方法——一步RaR和两步RaR,通过让LLM自己重新表述问题来促进它们更好的回答。

在人际交往中,改述是一种众所周知的技巧。人们将另一个人的问题重新表述,以确保回答的清晰和连贯。这种交流策略同样适用于LLM,让它先生成一个重新措辞的问题,然后提供答案。在一步RaR中,LLM被要求重述问题并使用单个查询来回答问题。如图3所示。

AIGC_aigc疑似度_aigc是什么概念

图3 一步RaR的过程

研究人员进一步引入了两步RaR方法。具体而言,LLM首先重述问题,然后结合原始问题和重述的问题来提高回答质量。如图4所示。

AIGC_aigc疑似度_aigc是什么概念

图4 两步RaR的过程

值得注意的是,重述问题的LLM和回答的LLM可以是相同或不同的模型。因此,较强的LLM,如GPT-4重新表述的问题可以帮助像Vicuna这样较弱的LLM产生更准确的回答。回答质量的提高也可以用来改进基准数据集,以便更公平地评估LLM.

此外,与一步RaR的提示词相比,在两步版本中,研究人员通过保留用户的问题来保持原始上下文,同时添加LLM重新表述的问题以帮助LLM更好地理解。这防止了重述问题与原始问题的可能差异。

三、实验结果

AIGC_aigc疑似度_aigc是什么概念

图5 一步、两步RaR性能与初始方法的比较

研究人员在不同任务上的实验显示,无论是 一步 RaR 还是 两步RaR,都在提高 GPT4 的回答准确率方面显示出了一致的有效性。值得注意的是,在原本对于 GPT-4 极具挑战性的任务上,RaR 展现出了显著的改进效果,甚至在某些情况下准确率接近 100%。基于此,研究团队总结了以下两点关键的结论:

1.RaR提供了一种即插即用的黑箱式提示方法,能够有效地提高 LLM 在各种任务上的性能。

2. 在评估 LLM 在问答QA任务上的表现时,检查问题的质量至关重要。

四、总结

人类和大语言模型(LLM)之间交流可能存在误解:看似对人类清晰的问题可能仍会被大语言模型理解成其他的问题。UCLA 的研究团队基于这个问题提出 RaR 这一新颖方法,促使 LLM 先复述并澄清问题,然后再回答。

展望未来,RaR 这类的方法预计将持续完善,以及它们与 CoT 等其他方法的整合,将为人类与大语言模型之间更准确、更有效的互动铺平道路,最终拓展 AI 解释和推理能力的边界。