学界 | DeepMind想用IQ题测试AI的抽象思维能力，进展还不错

时间：2018-07-12 13:54|来源：未知|编辑： 网友评论

大数据文摘编辑组出品

　　抽象理解能力一直是人类引以为豪的智慧来源。

　　阿基米德基于对物体体积的抽象理解，悟到了物体的体积与物体浮力之间的关系。这就是抽象推理的魔力。

　　基于神经网络的机器学习模型取得了惊人的成绩，但是测量其推理抽象概念的能力却是非常困难的。

　　虽然人工智能已经可以在策略游戏的对战中战胜人类，但是却在一些简单任务方面“无能为力”，特别是需要在新环境中发现并重新构建抽象概念。

　　举个例子，如果你只训练AI计算三角形的属性，那么，你训练的AI系统永远无法计算正方形或者其他没有训练过的形状的属性。

　　又比如下边这道简单的IQ测试题。

　　IQ测试给了DeepMind灵感，是不是也能用其测量AI的推理能力呢？

　　在以往解决通用学习系统努力的基础上，DeepMind最新论文提出了一种如何测量机器模型认知能力的方法，并表达了关于泛化的一些重要见解。

大数据文摘微信公众号后台回复
“IQ测试”获得本论文。

　　要构建更好、更智能的系统，使得神经网络能够处理抽象概念，需要对其进行改进。

　　此方法的灵感来源于IQ测试。

　　创建抽象推理数据集

　　标准的人类智商测试中，通常要求测试者通过应用他们日常经验学习的原则来解释感知上简单的视觉场景。

　　例如，人类测试者可能已经通过观察植物或建筑物的增长，通过在数学课上学习加法，或通过跟踪银行余额获取利息增长的情况来了解“渐进”（一些属性能够增加的概念）。

　　然后把这些感性认识上升到理性认识，从而对测试题进行推断预测，例如图形的数量、大小，甚至沿着序列增加颜色强度。

　　现在机器学习仍然无法理解一些看似简单的“日常体验”，这意味着，人类无法轻易地衡量AI将知识从现实世界转移到视觉推理测试的能力。

　　基于此认知，DeepMind设计一个实验，希望使人类视觉推理测试得到很好的利用。这一研究不是从日常生活到视觉推理问题(如人类测试)的知识转移，而是研究知识从一组受控的视觉推理问题转移到另一组问题。

　　为实现这一目标，DeepMind构建了一个用于创建矩阵问题的生成器，涉及一组抽象因子，包括“渐进”之类的关系以及“颜色”和“大小”等属性。虽然问题生成器使用了一小组潜在因子，但它仍然会产生大量独特的问题。

　　接下来，DeepMind约束生成器可用的因子或组合，以便创建用于训练和测试模型的不同问题集，以度量模型可以推广到留存的测试集的程度。

　　例如，创建了一组谜题训练集，其中只有在应用于线条颜色时才会遇到渐进关系，而在应用于形状大小时会遇到测试集。如果模型在该测试集上表现良好，它将提供推断和应用抽象概念的能力的证据，即使在之前从未见过进展的情况下也是如此。[page]分页标题[/page]

　　有希望的抽象推理证据

　　在机器学习评估中应用的典型的泛化机制中，训练和测试数据来自于相同的基础分布，测试的所有网络都表现出良好的泛化误差，其中一些在略高于75%的情况下实现了令人印象深刻的绝对性能。性能最佳的网络明确地计算了不同图像面板之间的关系，并且并行地评估了每个潜在答案的适用性。DeepMind将此架构称为Wild RelationNetwork（WReN）。

　　当需要在先前看到的属性值之间使用属性值“插值”来推理，以及在不熟悉的组合中应用已知的抽象关系时，模型的泛化效果显著。然而，在“外推”机制中，同样的网络表现得糟糕得多，在这种情况下，测试集中的属性值并不与训练中看到的值处于相同的范围内。

　　这种事情发生在当训练集中有深颜色的物体而测试集中是浅颜色的物体的谜题中。当模型被训练来应用以前所见的关系(比如形状的数量)到一个新的属性(如大小)时，泛化性能也会更糟。

　　最后，当训练模型不仅预测正确的答案，而且还预测答案的“原因”（即应该考虑解决这个难题的特定关系和属性)时，DeepMind称观察到了改进的泛化性能。

　　有趣的是，在中性分割中（the neutral split），模型的准确性与它推断矩阵下正确关系的能力密切相关：当解释正确时，模型会选择当时正确的答案的概率为87%，但当它的解释错误时，性能下降到只有32%。这表明，当模型正确地推断出任务背后的抽象概念时，能够获得更好的性能。

　　更微妙的泛化方法

　　目前的文献关注于基于神经网络的机器学习方法的优缺点，通常是基于它们的能力或泛化的失败。DeepMind的结果表明，得出关于泛化的普遍结论可能是没有帮助的：测试的神经网络在某些泛化状态下表现得很好，而在其他状态下表现得很差。
　　它们的成功是由一系列因素决定的，包括所使用的模型的架构，以及模型是否被训练为其选择的答案提供可解释的“原因”。在几乎所有的情况下，当需要推断出超出其经验的输入或处理完全陌生的属性时，系统表现很差；在这个至关重要的研究领域为未来的工作创造一个清晰的重点。
本文首发于微信公众号：大数据文摘。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。

TAG

相关阅读：

AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20

游戏玩家为之疯狂！Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39

全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38

AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50

极速制胜制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44

央视《新闻联播》头条聚焦铁建重工，聚力攻克“卡脖子”技术难题2021-03-22 11:08

刚刚！我又上央视新闻联播头条了！2021-03-22 11:04

中国电科（3月1日-3月7日）要闻回顾 | 资讯轻阅读2021-03-22 10:47

我国将建第一个国家公园：为何是三江源2021-03-22 10:43

美国硅谷上演“大逃亡”：郊区成科技精英避难所2021-03-22 10:41

滚动播报

12:17寻找自然受益型经济10万亿美元的商机 ——第一财经第十四度携手达沃斯举办

12:43燃情“苏超”！苏州队VS扬州队精彩上演！雪中飞助力苏州队3:0夺得首胜!

17:23卷不赢的618，中国商家在东南亚集体“回血”

13:57“基于北斗与遥感的数字应用产业互联关键技术及应用”科技成果评价会在京成功

13:39三贯穿定基调，五纵横拓图，六点连线筑生态——燕京510以全域营销战略登顶

10:05由新者胜至行者达第三届中国企业碳中和表现榜正式发布

09:53相关专家领导赴四川嘉好变频供水设备科技有限公司考察调研

21:20甘露特钠胶囊多地断供？谁来续上患者的记忆

08:59站酷×北京邮政×微博强强联手！“玩具杂货铺”玩转儿童节艺术营销

14:13再破圈！央视端午晚会新松大负载机器人“执手”专业舞者柔美共舞，人机“无间

12:30盼星星，盼月亮，就盼九期一

09:26双线狂欢引爆510盛夏：狮王“世界风味”VS燕京9號“社区烟火”

14:35如何借力抖音７亿日活？京东（郑州）基地手把手教电商企业数字化转型

16:35150+项专利死磕滤芯，云米引领家庭饮水进入矿泉时代

10:35必有人，重写爱与浪漫宝珀Ladybird贝蒂女士系列

10:34宝珀Ladybird贝蒂女士系列钻石舞会炫彩腕表焕新演绎尊贵皇家紫色

10:36HTX携手HTX DAO共庆BTC披萨节，开启Web3全球化共识新篇章

10:08景德镇国家陶瓷版权交易中心沐禅壹号靠谱吗？

21:31BTC披萨节遇上TRUMP晚宴，HTX送出百万USDT狂欢福利

16:09HTX“火星计划特别版”新晋候选人出炉，用户太空之旅进入冲刺阶段

13:502025第四届石油石化装备产业科技大会暨科技创新成果展览会成功召开

19:352025第四届石油石化装备产业科技大会暨科技创新成果展览会成功召开

13:49恩捷李晓明：加速领跑全球锂电隔膜赛道

15:17HTX披萨狂欢节用户红包活动开启：联动七大加密项目限时送200,000

09:352025燕京啤酒510 BigDay启幕，解码全域营销新范式

09:24恩捷股份：恒捷远 PE-MBR 膜组器如何实现成本 “大瘦身”

20:03“火星计划特别版”活动启动：孙宇晨出资600万美元，助HTX普通用户圆梦

16:51USD1上线引爆市场，HTX下一步瞄准WLFI？

15:44燕京啤酒510品牌日蓄势待发：以全产品线矩阵构建全域营销生态

15:19孕妈妈必须知道的脐带血知识：脐带血十大误区

新闻排行榜

产经聚焦寻找自然受益型经济10万亿美元的商机 ——第

产经聚焦燃情“苏超”！苏州队VS扬州队精彩上演！雪中

产经聚焦由新者胜至行者达第三届中国企业碳中和表现

产经聚焦再破圈！央视端午晚会新松大负载机器人“执手”

产经聚焦150+项专利死磕滤芯，云米引领家庭饮水进入

产经聚焦必有人，重写爱与浪漫宝珀Ladybird

产经聚焦宝珀Ladybird贝蒂女士系列钻石舞会炫彩

热点资讯孕妈妈必须知道的脐带血知识：脐带血十大误区

热点资讯中国首部《癌因性厌食诊疗专家共识》发布，美适

产经聚焦3项全球第一！海尔AI空调只供用户“健康好空