GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车,马库斯:AGI太遥远
时间:2023-08-15 09:28:54来源:程序员客栈


(相关资料图)


新智元报道

编辑:编辑部 【新智元导读】「地表最强」GPT-4在推理问题中接连出错!MIT校友,以及UCLA华人一作的最新研究引众多网友围观。
GPT-4根本不会推理! 近来,有两篇研究称,GPT-4在推理方面表现不尽人意。 来自MIT的校友Konstantine Arkoudas,在21种不同类型推理集中,对GPT-4进行了评估。 然后,对GPT-4在这些问题上的表现进行了详细的定性分析。 研究发现,GPT-4偶尔会展现出「最强大脑」的天赋,但目前来看,GPT-4完全不具备推理能力。 论文地址:https://www.preprints.org/manuscript/202308.0148/v2 研究一出,引来众多网友围观。 马库斯表示,「如果这是真的——正如我早就说过的那样——我们离AGI还差得远呢。我们可能需要进行大量的重新校准:没有推理就不可能有 AGI」。 而另一篇来自UCLA和华盛顿大学的研究也发现,GPT-4,以及GPT-3.5在大学的数学、物理、化学任务的推理上,表现不佳。 论文地址:https://arxiv.org/pdf/2307.10635.pdf 研究人员引入了一个大学科学问题解决基础SCIBENCH,其中包含2个数据集:开放数据集,以及封闭数据集。 通过对GPT-4和GPT-3.5采用不同提示策略进行深入研究,结果显示,GPT-4成绩平均总分仅为35.8%。 这项研究同样再次引起马库斯的关注:
关于数学、化学和物理推理的系统调查,结果显示,目前的LLM无法提供令人满意的性能......没有一种提示策略明显优于其他策略。
下面我们就来具体看看,GPT-4如何在21个问题集,数学、物理、化学上推理惨败的。

21个问题集,GPT-4全翻车

不过,在看GPT-4回答问题之前,作者给出了一个注意事项: GPT-4是一个非确定性系统,即使参数设置相同,在不同的运行中也可能产生不同的答案。 而以下的测试交流都是逐字记录的,根据作者的经验,文中讨论的GPT-4出错的地方往往具有鲁棒性。 1.简单算术 能够进行基本运算,是推理的必要条件。 但是,GPT-4仍然无法可靠地执行加法、乘法等基本算术运算。 比如,让GPT-4在1381和1453之间随机选择两个数字相乘,并给出结果。 GPT-4选择了1405,以及1421,但是最后给出的结果显然是错的。因为1405×1421=1996505。 2.简单计数 虽然具体计数并不一定是一种推理活动 ,但它肯定是任何具有一般能力推理系统的必备条件。 在这里,给GPT-4一个命题变量,并在它前面加上27个否定符号,要求它计算否定符号的个数。 对于我们来讲,这简直轻而易举,尤其是否定符号是间隔5个写成的,并且有5组,最后一对否定符号紧随其后。 然而,GPT-4却给出了「28个」答案。 3.(医学)常识 当前,我们可以将常识性论证视为,从给定信息加上未说明的条件(默认的、普遍接受的背景知识)中得出的简单推理。 在这种特殊情况下,常识性知识就是「人在死前是活着的,死后就不会再活着」这样的命题。 比如,当你问GPT-4:Mable上午9点的心率为75 bpm,下午7点的血压为120/80。她于晚上11点死亡。她中午还活着吗? GPT-4竟回答:根据所提供的信息,无法确定Mable中午是否还活着。 但明显根据给定的信息,常识性推断(不用想)直接得出结论了。 4.初级逻辑 如果P(x)包含Q(x),而Q(a)不成立,那么我们就可以根据模型推论出P(a)也不成立(因为如果P(a)成立,那么Q(a)也会成立)。 这是一个最基本的同义反复,但GPT-4却完全提出一个反模型: 值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x),并提出了x有可能是负数偶数,「不排除存在其他给定条件的模型」。 其实不然,一个反模型(countermodel)必须满足所有给定的条件,同时证伪结论。 此外,仅仅几句话之后, GPT-4就声称P(x)在给定的解释下确实蕴含Q(x),这与它自己之前的说法相矛盾。 说明, GPT-4还会出现内部不一致的问题。 5.简单量词语义 请看下面三个句子:

1. [forall x . P(x) ==> Q(x)]

2. [exists x . P(x)]

3. [exists x . ∼ Q(x)] 请证伪或证明以下主张:这三个句子是共同可满足的。 显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) 和 ¬Q(a2)的域{a1, a2},然而GPT-4得出的结论确与之相反。 6. 简单图着色 首先考虑一个没有解决方案的图着色问题。 不难发现,对于这个问题中描述的图形,两种颜色是不足以满足问题中描述的图(例如,顶点0、2和4形成了一个簇,因此至少需要3种颜色)。 在这个简短的输出中,出现大量惊吓下巴的错误。 GPT-4一开始就谎称图形是完全的(显然不是,例如顶点2和3之间没有边)。 此外,显而易见的是,如果图形真是完全的,那么就不可能用2种颜色来着色,因为一个有6个顶点的完全图形至少需要6种颜色。 换句话说,GPT-4的说法不仅是错误的,而且是前后矛盾的:一会儿告诉我们(错误)这6顶点图形是完全的,这意味着不可能用2种颜色给它着色,一会儿又提供了一种双色「解决方案」。 值得注意的是,GPT-4之所以表现如此糟糕,并不是因为它没有掌握足够的图形知识或数据。 当研究人员要求GPT-4对「完全图」的了解时,它滔滔不绝地说出了「完全图」的正确定义,以及一长串关于K_n(有n个顶点的完全图)的结果。 显然,GPT-4 已经记住了所有这些信息,但却无法在新条件中应用。 7. 子集和 S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}。那么S有多少个子集的总和是37? 这个问题中,S的子集都是偶数,而偶数之和不可能是奇数,因此答案为0。 然而,GPT-4没有停下来考虑S包含的内容,而是反射性地生成它认为对这个问题合适的答案,然后继续「幻化」出一个答案「4」。 8.初级离散数学 告诉GPT-4 A × B代表集合A和B的笛卡尔积、从A到B的关系R是A × B的子集,以及&代表集合交集之后要求它证明或证伪: 其中R1和R2是从A到B的二元关系,dom(R)表示二元关系R的域。 需要子集关系在(2)的两个方向上都成立,但它只在从左到右的方向上成立。另一个方向的反例很容易找到(例如,取A = {(1, 2)} 和 B = {(1,3)})。 然而,GPT-4却推断这是成立的,显然不正确。 9.简单安排计划 在时间安排问题上,GPT-4同样出错了。 上下滑动查看全部 10.罗素悖论 罗素理发师悖论是指,存在一个理发师b,他为且仅为那些不给自己刮胡子的人刮胡子。 这句话的否定是一个同义反复,很容易用一阶逻辑推导出来。 如果我们把R(a,b)理解为a被b刮胡子,那么我们就可以提出这个同义反复,并要求GPT-4证明或反证它,如下面prompt所示: 如果存在这样一个理发师x,那么对于所有y,我们将有R(y,x) <==> ∼ R(y,y),因此用x代替y将得到R(x,x) <==> ∼ R(x,x),这是矛盾的。 GPT-4对所给句子的结构和需要做的事情的理解无可挑剔。然而,随后的案例分析却糊里糊涂。 11.积木世界 这是一个简单的推理任务,需要对倒数第三个积木B3进行案例分析。 首先,B3要么是绿色的,要么不是。 如果是绿色的,那么B3就在非绿色积木B4的上面,所以结论成立。 如果不是,那么从上数的第二个绿色积木B2,就在非绿色积木B3上面,因此结论仍然成立。 然而,结果显示,GPT-4的表现并不理想。
有五个积木从上往下堆叠: 1. 从上往下数第二个积木是绿色的 2. 从上往下数第四个积木不是绿色的 在这些条件成立的情况下,证伪或证明以下结论:在一个非绿色积木的正上方,有一个绿色‍积木。
首先它在证明猜想时,就已经弄错了证明的策略——PT-4假定了两种特殊情况来进行推理。 此外,GPT-4在自己的推理中已经得出了结论(虽然是错的),但在回答时仍然告诉用户问题没有被解决。而这体现的便是模型的内部不一致性问题。 12.空间推理 这里作者选择了一个现实世界中的方位问题: GPT-4第一次给出的答案是右边,但作者指出了它的错误,虽然从地图上来看,位于马萨诸塞州的波士顿的确在南达科他州的右边,但这里还有一个附加条件:身体的朝向是得克萨斯州。 这意味着波士顿在作者的左边。 之后,GPT-4在回答波士顿与南达科他州高低位置时,出现了更严重的问题:它在同一个回答中给出了两种矛盾的描述。 13.时间推理 作者在这里给出了一个比较简单的时间推理问题,但GPT-4的回答依旧一塌糊涂。
Tom和Nancy上班需要乘坐交通工具。Nancy的通勤时间大约为30~40分钟,而Tom的通勤时间大约为40~50分钟。上个周五,Nancy在早上8:10~8:20之间离家,而Tom在早上8:5~9:10之间到达工作地点。此外,Nancy在Tom离开家后到达工作地点,但不会超过20分钟。你能否推断出上个星期五,Tom和Nancy何时到达工作地点?
在梳理完问题中的信息后,GPT-4给出了它的推理过程: 「如果Tom在可能最晚的时间(上午8:20)离开家...」 这句话一开篇就错了。 实际上,题目并没有给出有关Tom最晚离开家的时间,而GPT-4将Nancy的时间(「Nancy在上午8:10-8:20之间离家」)误用到了Tom身上。 同时,GPT-4给出的条件语句是混乱的,假设中包含了与结论(Nancy的到达时间)无关的信息(Tom):「如果Tom在最晚时间(上午8:20)离开家,Nancy在她最晚时间(上午8:20)离开,她的通勤时间最多是40分钟,Nancy最晚在上午9:00到达工作地点。」 这应该表述为:「如果Nancy在她最晚时间(上午8:20)离开,并且她的通勤时间最多是40分钟,那么Nancy最晚会在上午9:00到达工作地点。」 接着,GPT-4错误地推断出以下内容:「由于Tom的通勤时间最少为40分钟,这意味着他最晚会在上午9:00到达工作地点。」 这个结论显而易见根本不成立。从已知的「Tom的通勤时间最少为40分钟」这个事实中无法得出这个结论。 接下来的回答依旧是基于错误地假设Tom最早离开时间是上午8:10的条件(再次,这个出发时间是Nancy的,不是Tom的)。 然后它声称Nancy到达时间是8:45,这与早上8:10离家,不超过20分钟条件不符合。 最后,它错误地得出结论Tom和Nancy都在8:50和9:00之间到达。 在推理的过程中,GPT-4屡次出现了将信息张冠李戴的情况,最后给出的答案也是基于错误条件得出的错误回答。 14. 谋杀还是自杀? 作者构思了一个逻辑谜题,列出了9个条件要求GPT-4找出真正杀害Agatha姨妈的凶手。
1. 住在Dreadbury Mansion的某人杀了Agatha姨妈。 2. Dreadbury Mansion中唯一的居住者是Agatha姨妈、管家和Charles。 3. 杀人犯总是讨厌他的受害者,并且他的财富不会比受害者多。 4. Charles不讨厌Agatha姨妈讨厌的人。 5. Agatha姨妈讨厌所有人,除了管家。 6. 管家讨厌所有不比Agatha姨妈富有的人。 7. 管家讨厌Agatha姨妈讨厌的所有人。 8. 没有人讨厌所有人。 9. Agatha姨妈不是管家。

正确的答案是Agatha姨妈杀了自己。

首先,根据条件5,Agatha姨妈必须讨厌她自己,因为她讨厌所有除了管家以外的人。 因此,根据条件4,得出Charles不讨厌她,所以他不可能杀了她。 根据条件5和7,管家不可能讨厌他自己,因为如果他讨厌自己的话,条件8就不成立了,他会讨厌所有人。 根据条件6,得出管家比Agatha姨妈更富有,否则他会讨厌自己,这与前面我们得出的他不讨厌自己相矛盾。 根据条件3,管家也不会是凶手(第3个条件)。 在推理中,GPT-4正确地排除了Charles,但无法排除管家,并得出了错误的结论:管家是凶手。 GPT-4做出的另一个关键错误是:由于Agatha姨妈讨厌所有除管家以外的人(条件5),这意味着她至少不讨厌她自己。 这是一个奇怪的错误,从第5个条件就可以得出Agatha姨妈讨厌她自己。 同时,GPT-4又一次展示了反复出现的不一致性问题——几乎在每一条回复中,GPT-4都声称推导出某个命题及其否定形式。 15.沃森选择任务(Wason selection task) 沃森选择任务是心理推理领域中的基本内容。 在一月份的论文中,GPT-3.5就未能通过这个测试,本次研究中,GPT-4的表现依旧不理想。
桌上放着7张牌,每张牌一面写着数字,另一面是单色色块。这些牌的正面显示的是50、16、红色、黄色、23、绿色、30。 要判断「如果一张牌正面显示4的倍数,则背面颜色为黄色」这个命题的真假,你需要翻转哪些牌?
这些回答显示,GPT-4不理解条件语句的语义。当GPT-4说卡片「50」和「30」必须翻开时,它似乎将条件误认为是充分必要条件。 而无论GPT-4的回答是对还是错,其内部的说法都是不一致的。 16.熵 信息论的一个基本结论是:随机向量Z的熵上界不超过组成Z的随机变量的熵之和。 因此,下面问题的答案应该是「在任何情况下都不会」。 17.简单编译器的正确性 最后给GPT-4的推理问题是最具挑战性的:证明一个简单表达式编译器的正确性。 上下滑动查看全部 但在这次测试中,GPT-4通过在表达式的抽象语法结构上设置结构归纳,正确地进行了证明。 这可能是因为它之前看过类似的证明,作者给出的例子是编程课程和教材中常见的练习类型。 然而,GPT-4还是会出现一些细节上错误。 结论:推理能力至关重要,但GPT-4不会 鉴于GPT-4是目前能力最强的LLM,因此作者基于以上分析给出了三个主要结论: 1. 在软件开发(或一般的科学和工程领域)中使用生成式AI,除了对于一些繁琐的任务外(作为一种对知识密集型编码问题的加速自动补全),充满了风险。在这些领域,规范性和正确性至关重要,而当前的LLM无法达到这些标准。 2. 随着LLM推理能力的不断提高,严格的证明检查会变得越来越重要。这种方法可以通过要求LLM将其推理形式化,或者通过训练其他LLM,来检查用自然语言表达的推理。 3. 就目前而言,AI征服人类或人类利用AI达到邪恶目的这种反乌托邦情景,都极为牵强,甚至到了荒谬的地步。当最先进的AI系统连左右都分不清时(上述第12个问题),呼吁制定政策来保护人类免受它的伤害,往好里说是为时过早,往大了说就是对资源的浪费。 不可避免地,一些人可能会说这些结果是「挑选数据」。但这是因为他们对什么是挑选数据存在着误解。根据相关命题的逻辑结构和整体背景,挑选数据有时甚至是必要的。 通过对计算机程序进行调试来发现和理解其弱点,试图证伪科学理论,试驾新车,试图找到一个假定的定理的反模型等等,从根本上来说都是「挑刺」。 举个例子,比如你发现自己新买的汽车有一个轮胎漏气,这时经销商就可以抗议称你是在「挑选数据」。毕竟,就整辆车来说,轮胎的完好率高达75%。 同样,科学、医学和工程领域的应用,尤其是软件工程,都有严格的标准。 就像我们不想要一座在90%的情况下能立柱的桥梁一样,我们需要对所有输入都有效的排序算法,而不仅仅是大部分;我们需要购物车每次都能收取正确的费用,而不仅仅是大多数时间,等等。 而这些计算和推理密集型的应用,与推荐引擎不同,它们必须非常可靠。 作者介绍 Konstantine Arkoudas 直到去年,Konstantine Arkoudas还是RPI认知科学系的研究员,也是麻省理工学院CSAIL的研究员。 目前,他是Telcordia研究实验室的高级研究科学家,主要研究AI,以及在电信和网络行业应用正式方法解决现实世界的问题。 他曾在2000年获得了MIT的计算机科学博士学位。在此之前,还获得了计算机科学硕士学位,哲学硕士学位,以及计算机科学学士学位,辅修哲学。

大学数理化,GPT-4得分35.8%

UCLA的研究中,主要评估了GPT-4,以及GPT-3.5在数学、化学、物理方面的推理能力。 当前,为了增强LLM解决数学等任务的能力,有人提出了思维连CoT策略,指导大模型逐步生成答案,从而更深入思考问题。 然而,即使这样的方法有其特定的优势,也难以完全解决复杂的科学问题。 如下,是大学物理化学的一个示例问题,以及在两种提示策略下生成的解决方案。 有CoT加持的GPT-4出现明显的计算错误,而提示用Python作为外部工具的GPT-4,也会误解数学方程。 错误标记为红色,更正内容为紫色 对此,研究中引入了一个大学水平的科学问题基准SCIBENCH。 其中,「开放数据集」包括从大学课程广泛使用的教科书中收集的5个问题,涵盖了基础物理、热力学、经典力学、量子化学、物理化学、微积分、统计学和微分方程。 开放教科书问题摘要(包括问题数量的比例,以及有详细解决方案的比例) 另一个是「封闭数据集」,为了模拟真实世界的评估,其中包含了计算机科学和数学三门大学课程的7套期中和期末考试题。 封闭考试数据集(包含每场考试中的问题实例数,以及考试中包含详细解答的问题比例。另外,还有不同形式问题的比例,包括自由回答、多项选择和真假答案。作为参考,括号中的数字表示问题的评分点。) 与现有基准不同,SCIBENCH中的所有问题都是,开放式、自由回答的问题。 数据集中有了,研究重点评估了两个具有代表性的LLM,GPT-3.5和GPT-4,并采用了不同的提示策略,包括CoT、零样本学习、少样本学习。 另外,研究人员还提示模型使用外部工具,比如Python和Wolfram语言。 实验结果表明,在没有任何复杂提示、或使用外部工具的情况下,GPT-3.5和GPT-4在开放数据集中平均准确率分别为10.62%和16.81%。 那么,在加入CoT和外部工具后,在同一数据集上最高准确率也仅仅是35.8%。不过,相较之前,很大程度提高了准确率。 开放数据集中准确率的结果 在使用CoT提示+外部工具最强配置下,GPT-4在开放式数据集上取得了35.80%的平均分,在封闭数据集上取得了51.57%的平均分。 这些结果表明,在未来的LLM中,GPT-4有相当大的改进潜力。 考试数据集上零样本学习下总分的实验结果 为了全面了解LLM在科学问题解决中的局限性,研究人员提出了一种全新的「自我完善」的方法,以发现LLM所做解答中的不足之处。 便是如下的「评估协议」。 首先,将正确的解决方案与LLM生成的解决方案进行比较,并在人工标注员的协助下,总结出成功解决科学问题所需的10项基本技能。 具体包括:逻辑分解和分析能力;识别假设;空间感知;因果推理;问题演绎;抽象推理;科学素养;代码转换;逻辑推理;计算能力。 随后,团队采用了一种由LLM驱动的自我评价方法,对每个实验配置下基准LLM所做的解决方案中,缺乏的技能进行自动分类。 6种设置下GPT-3.5在文本数据集上的错误概况,揭示了其10种基本解决问题能力的缺陷分布 最后,通过分析发现: (1) 虽然CoT显著提高了计算能力,但在其他方面的效果较差; (2) 使用外部工具的提示可能会损害其他基本技能; (3) 少样本学习并不能普遍提高科学问题解决能力。 总之,研究结果表明,当前大型语言模型在解决问题能力方面依旧很弱,并且在各种工具帮助下,依旧存在局限性。 参考资料: https://www.preprints.org/manuscript/202308.0148/v2 https://arxiv.org/pdf/2307.10635.pdf

为什么OpenAI不能被计划?



标签:

  • 上一篇文章: 短途车票越来越难买?中国铁路回应
  • 下一篇文章: 最后一页
  • 生活指南
  • 2023年中国国际服务贸易交易会9月2日至6日在京举办

    13日,2023年中国国际服务贸易交易会“我在服贸会等你”新闻发布会及场

  • 跃跃御市:"自主五虎"淡季不淡,"七雄"逐鹿新能源汽车

    跃跃御市:

  • 钠离子电池订单起势!小动力、小储能市场渗透加速

    钠离子电池订单起势!小动力、小储能市场渗透加速,储能,渗透,格林美,动

  • 8月13日开赛!学青会南宁首赛筹备工作就绪

    第一届全国学生(青年)运动会手球(女子组)比赛将于8月13日至21日在

  • 新民快评|未成年人模式“分龄”,有助更“适龄”

    近日,国家网信办发布《移动互联网未成年人模式建设指南(征求意见稿)

  • 机构:英国7月房价暴跌,年内房地产市场将继续降温

    InteractiveInvestor援引Nationwide最新数据表示,由于抵押贷款利率上

  • 新款福特领睿正式上市 12.68万-16.98万元

    日前福特汽车官方公布,新款福特领睿正式上市。新车本次共共推出7款车

  • LOL13.15版本安妮削弱介绍

    就在最近英雄联盟官方上线对于13 14版本的更新内容,这次更新有许多内

  • 德媒:每年吃掉4000吨蛙腿,法国人爱吃蛙腿威胁东南亚生态平衡

    印尼是蛙腿最大出口国,法国等欧洲国家对这种美食的需求不仅威胁到当地

  • 智慧法务生态体系推进法务数字化进程

    作为专注在法律领域的人工智能与数字化研究的专家,她从企业整体数字化

  • 成都大运会|大运之城中的太极古韵

    成都大运会|大运之城中的太极古韵,太极,李亚光,成都,杜甫草堂,古城

  • 全球报道:西峡农商银行厚植“党建+金融”人才强基沃土

    近年来,河南西峡农商银行始终把凝聚青春力量、展现青年担当作为人才立

  • 全球通讯!​西平县文广旅局召开纪律作风整顿工作会

    7月14日下午,西平县文广旅局召开纪律作风整顿工作会。县文广旅局领导

  • 《绯闻女孩》lily和rufus最终和好了吗?电视剧一共有几季?|天天微资讯

    《绯闻女孩》lily和rufus最终和好了吗?《绯闻女孩》lily和rufus结局

  • 2023年07月07日专精特新涨停板梳理

    2023年07月07日,专精特新受到利好消息的刺激下,整个板块掀起了涨停潮

  • 吉利6月销量13.79万辆 吉利银河首款轿车L6今晚发布

    吉利汽车在今年6月的销量达到了13 79万辆,同比增长了9%。其中,纯电动

  • 民生
    • 比亚迪宋L细节曝光,能否续写冠军密码?

    • 钢琴家牛牛新专辑分享会 环球音乐与柏斯音乐联合上演音乐盛宴

    • 泰宁草菇:种在“空调房”一年四季都能长

    • 知名投资者奥利里驳斥“美国降级无关紧要”:将损害对美元和美债信心