学界 | DeepMind想用IQ题测试AI的抽象思维能力,进展还不错
![]() |
抽象理解能力一直是人类引以为豪的智慧来源。
阿基米德基于对物体体积的抽象理解,悟到了物体的体积与物体浮力之间的关系。这就是抽象推理的魔力。
基于神经网络的机器学习模型取得了惊人的成绩,但是测量其推理抽象概念的能力却是非常困难的。
虽然人工智能已经可以在策略游戏的对战中战胜人类,但是却在一些简单任务方面“无能为力”,特别是需要在新环境中发现并重新构建抽象概念。
举个例子,如果你只训练AI计算三角形的属性,那么,你训练的AI系统永远无法计算正方形或者其他没有训练过的形状的属性。
又比如下边这道简单的IQ测试题。
![]() |
在以往解决通用学习系统努力的基础上,DeepMind最新论文提出了一种如何测量机器模型认知能力的方法,并表达了关于泛化的一些重要见解。
![]() |
要构建更好、更智能的系统,使得神经网络能够处理抽象概念,需要对其进行改进。
此方法的灵感来源于IQ测试。
创建抽象推理数据集
标准的人类智商测试中,通常要求测试者通过应用他们日常经验学习的原则来解释感知上简单的视觉场景。
例如,人类测试者可能已经通过观察植物或建筑物的增长,通过在数学课上学习加法,或通过跟踪银行余额获取利息增长的情况来了解“渐进”(一些属性能够增加的概念)。
然后把这些感性认识上升到理性认识,从而对测试题进行推断预测,例如图形的数量、大小,甚至沿着序列增加颜色强度。
现在机器学习仍然无法理解一些看似简单的“日常体验”,这意味着,人类无法轻易地衡量AI将知识从现实世界转移到视觉推理测试的能力。
基于此认知,DeepMind设计一个实验,希望使人类视觉推理测试得到很好的利用。这一研究不是从日常生活到视觉推理问题(如人类测试)的知识转移,而是研究知识从一组受控的视觉推理问题转移到另一组问题。
为实现这一目标,DeepMind构建了一个用于创建矩阵问题的生成器,涉及一组抽象因子,包括“渐进”之类的关系以及“颜色”和“大小”等属性。 虽然问题生成器使用了一小组潜在因子,但它仍然会产生大量独特的问题。
接下来,DeepMind约束生成器可用的因子或组合,以便创建用于训练和测试模型的不同问题集,以度量模型可以推广到留存的测试集的程度。
例如,创建了一组谜题训练集,其中只有在应用于线条颜色时才会遇到渐进关系,而在应用于形状大小时会遇到测试集。如果模型在该测试集上表现良好,它将提供推断和应用抽象概念的能力的证据,即使在之前从未见过进展的情况下也是如此。[page]分页标题[/page]
有希望的抽象推理证据
在机器学习评估中应用的典型的泛化机制中,训练和测试数据来自于相同的基础分布,测试的所有网络都表现出良好的泛化误差,其中一些在略高于75%的情况下实现了令人印象深刻的绝对性能。性能最佳的网络明确地计算了不同图像面板之间的关系,并且并行地评估了每个潜在答案的适用性。DeepMind将此架构称为Wild RelationNetwork(WReN)。
当需要在先前看到的属性值之间使用属性值“插值”来推理,以及在不熟悉的组合中应用已知的抽象关系时,模型的泛化效果显著。然而,在“外推”机制中,同样的网络表现得糟糕得多,在这种情况下,测试集中的属性值并不与训练中看到的值处于相同的范围内。
这种事情发生在当训练集中有深颜色的物体而测试集中是浅颜色的物体的谜题中。当模型被训练来应用以前所见的关系(比如形状的数量)到一个新的属性(如大小)时,泛化性能也会更糟。
最后,当训练模型不仅预测正确的答案,而且还预测答案的“原因”(即应该考虑解决这个难题的特定关系和属性)时,DeepMind称观察到了改进的泛化性能。
有趣的是,在中性分割中(the neutral split),模型的准确性与它推断矩阵下正确关系的能力密切相关:当解释正确时,模型会选择当时正确的答案的概率为87%,但当它的解释错误时,性能下降到只有32%。这表明,当模型正确地推断出任务背后的抽象概念时,能够获得更好的性能。
更微妙的泛化方法
目前的文献关注于基于神经网络的机器学习方法的优缺点,通常是基于它们的能力或泛化的失败。DeepMind的结果表明,得出关于泛化的普遍结论可能是没有帮助的:测试的神经网络在某些泛化状态下表现得很好,而在其他状态下表现得很差。
它们的成功是由一系列因素决定的,包括所使用的模型的架构,以及模型是否被训练为其选择的答案提供可解释的“原因”。在几乎所有的情况下,当需要推断出超出其经验的输入或处理完全陌生的属性时,系统表现很差;在这个至关重要的研究领域为未来的工作创造一个清晰的重点。 本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 10:01苏州稻香村牡丹鲜花饼焕新上市 颜值、口味全面升级!
- 16:27推出新一期股票激励计划,舍得酒业凝聚发展共识,着眼长远
- 08:45中创碳投发布《亚洲地区主要商业银行气候相关信息披露洞察(2024)》
- 08:33周大生经典“哇!故宫的二十四节气”绘就玉兰与春意的永恒诗篇
- 17:51寿山福海公建民营机构样板受瞩目,政企合作共促养老产业高质量发展
- 17:50寿山福海公建民营机构样板受瞩目,政企合作共促养老产业高质量发展
- 17:36复兴正当时!沱牌特级T68引领沱牌加快成为“名酒典范”
- 15:07恩捷李晓明:凭创新实力闪耀“2024新经济企业TOP500”榜单
- 16:55梵高《野玫瑰》与周大生梵高Van Gogh系列:艺术与情感的传承与升华
- 10:48JJ 斗地主:严守禁止赌博准则,全方位打造棋牌游戏健康新局面
- 16:15东方药林受邀参加“2025共筑满意消费3·15企业直播联盟”活动
- 15:54宜享花:科技赋能金融,助力民营经济高质量发展
- 14:37沈丘县开展“世界水日”“中国水周”主题宣传活动
- 15:06青花墨韵,周大生珠宝X国家宝藏联名系列以匠心传承风华传奇
- 14:38情感链接消费,燕京啤酒塑造多彩“空间”
- 14:02千年楚都要“出圈”! 2025年寿州礼物文创产品设计大赛上线啦!
- 13:583项全球第一!海尔AI空调只供用户“健康好空气”
- 16:06火象社区:专注培养年轻人的财经素养
- 15:37周大生艺术珠宝以匠心雕铸,点亮早春“杏”运
- 15:10寿山福海携手社区启动“爱心小屋”公益助老项目,开启政企联动公益新篇章
- 10:29全美带你看世界·奢享沉浸式海上假期——2025全美世界邮轮之旅
- 15:05恩捷股份李晓明:科技赋能,四登榜单,逐梦高质量发展之路
- 14:45周大生经典以东方·青花系列为媒,演绎女性的优雅与力量
- 12:36以人为本,重新发现 | 「重新发现中国」邀请函
- 10:51JJ 斗地主:牢牢坚守禁止赌博要求,全力塑造棋牌游戏健康新风貌
- 17:39东方药林药业有限公司:从本土到全球,开启大健康领域的璀璨蝶变
- 17:25东方药林:厚植创新创业底色 汇聚向上向善力量
- 11:24从传统到现代,周大生珠宝在中式婚嫁文化的演变与坚守
- 20:00瑞技任命 A.D. Robison 为数据中心工程与服务副总裁,加速 A
- 09:02南少林寺与俄罗斯北奥塞梯州达成战略合作 共建“一带一路”国术交流中心


