IJCAI 2018国际广告算法大赛迁移学习夺冠,中国包揽冠亚季军
中国团队包揽了前三名。
实际上,进入决赛的8支队伍均来自中国。
这代表了中国在整个互联网算法,在大数据、人工智能相关的研发中已经跟国际同步,甚至有所超前,阿里妈妈副总裁张勤在决赛答辩的致辞中说。
目前,各大公司纷纷举办算法大赛,提供数据、工具和真实的业务场景,吸引在学术界和工业界的顶尖人才。
谷歌收购Kaggle,微软收购Github,其中一个很大的因素,都在于后者所保有的开发者。
算法大赛本身,就是一场更大背景下的竞赛。
广告预估算法:价值千亿美元的学术问题
IJCAI与阿里有多年的大赛合作历史。IJCAI全称International Joint Conference on Artificial Intelligence,是人工智能领域最好的学术会议之一,涵盖机器学习、计算可持续性、图像识别、语音技术、视频技术等内容,在学术圈中享有很高声誉。
最近几年,IJCAI都会与阿里巴巴集团联合举办机器学习比赛,已经成为保留项目。阿里通过IJCAI的平台吸引更多的人关注阿里,IJCAI则通过阿里大赛吸引更多人关注和支持IJCAI,这是一个双赢,IJCAI大会代表、悉尼科技大学数据科学学院院长张成奇教授说。
今年的大赛与阿里妈妈合办,于2月初正式启动,是参赛人数最多,覆盖范围最广的一届——
除了南极洲,其他6个大洲都有选手报名。
这届算法大赛的主题是广告。
在当前的互联网生态系统,搜索广告是最常用的营销方法之一。广告商为产品设置几个关键字,然后将产品推荐给搜索了这些关键字的用户。据统计,截止2017年底,搜索广告的总收入已经超过1000亿美元,占互联网广告总收入的50%以上。搜索广告也为大多数互联网公司,比如Google和Facebook,贡献了大部分的收入。
搜索广告以也其巨大的商业价值和研究价值,吸引了大量的专家学者,在学术界得到了广泛的研究。
本次比赛以阿里电商广告为研究对象,使用阿里妈妈提供的海量真实交易数据,构建预测模型,预估用户的购买意向,也即广告的转化率。
电商平台作为一个复杂的生态系统,其中的用户行为偏好、商品长尾分布、热点事件营销等因素,都是转化率预估要解决的难题。
大赛的评审告诉新智元,这种业务场景的不同,对于参赛着的挑战是不一样的;不同于传统搜索引擎中关注文本相关性,在购物场景下,模型需要对用户意图有更好的理解。因此,参赛者必须充分分析用户的行为特点,在特征设计和提出上有更多的创新。[page]分页标题[/page]
本次大赛阿里妈妈拿出了用户在交易场景中的真实数据,含有用户真正的序列化的购物行为。初赛的数据集近60万,决赛超过1000万。
冠军技术分享:用迁移学习方法做广告转化预测
6月5日,进入决赛的8支队伍在杭州阿里巴巴总部做了最终答辩。
选手的平均年纪不到25岁,来自高校和产业界的都有,比例大约一半一半。根据赛前调查,大部分人参与的原因是出于兴趣和锻炼自己,当然也有人明确表示,是希望毕业后进入阿里妈妈就职。
上海交通大学助理教授张伟楠、国家科技部云计算专家组成员/天壤智能创始人及CEO薛贵荣、阿里巴巴研究员吴波、阿里巴巴资深算法专家杨红霞、阿里妈妈资深算法专家刘凯鹏等作为评委出席了答辩。
大赛评委表示,整体看,这次比赛大部分的方案都有比较强的系统性。选手在数据分析方面做了很多的工作,充分的理解了业务场景。在特征工程上,非常精细、全面,也有不少新颖和特别的特征设计。在模型选择上,充分考虑数据规模,业务特点,模型选择合理。
根据复赛成绩和现场答辩表现,评出了一二三等奖各一名,以及两名创新奖。
一等奖:DOG(花志祥)
二等奖:蓝鲸烧香队(周耀;李智;郭鹏博)
三等奖:躺分队(陈波成,浙江工业大学;罗宾理,中南大学;吴昊,天津大学)
创新奖(两名):
i) 禁止实习咋找工作啊(张卫民,中科院计算所;庄晓敏;中科院;李昊阳,香港科技大学)
ii) 强东队(李强,吉林大学;沈冬冬,山东大学;蒋浩然,中南大学)
冠军方案:采用迁移学习,核心代码仅一页
给评审留下深刻印象的是本次大赛的冠军队伍——虽然是“队伍”,但只有一个人,花志祥。
花志祥是数据竞赛的老手,并且已在国内外多个算法大赛中斩获冠军。他的参赛口号/座右铭也非常简单——“一个字,干”。
评委表示,DOG对方案最大的特点整体非常简洁,设计思路清晰。针对这次比赛中测试数据和训练数据分布差异的问题,这个方案采用了一些迁移学习的方法利用训练数据。特征设计上有亮点,没有暴力地去融合很多特征,而是针对数据特性做了很简洁的特征设计。工程上也非常简洁,全部代码只有一页,有比较好的实用性。
这次的赛题,结合淘宝平台的业务场景和不同的流量特点,分为日常转化率预估(初赛)和特殊日期的转化率预估(决赛)。初赛是提供前7天的记录预测第8天,复赛提供前7天和第8天上午的记录,预测第8天下午的情况。
通过分析,花志祥发现初赛的转化率每一天基本相似,但在复赛中,前7天跟第8天的差别很大。基于这种情况,他在决赛时做了一个模型,使用迁移学习的方法,用第1到7天的数据,预测第8天上午和下午,两者一起预测。
在特征方面,使用了统计特征、时差特征、排序特征和表征特征这四种。统计特征就是用户点击的次数,看过的页数,搜索的小时,还有点击的品类的个数。时差是用户与商品item交互的时间距离;在真实的场景中,我们只能用到用户距离上次的时间,拿不到下次的时间,在整个比赛中,这有一定程度的数据穿越,所以最终采用的是用户点击某一个品类,距离上次的时间和下次的时间。排序特征是用户user与商品item的交互次数。最后,表征特征,用户对商品的哪些属性感兴趣,点击的ITEM有哪些属性,这样交互的特征越接近,购买的概率就越大。[page]分页标题[/page]
最终的代码只有一页。
我们特别介绍一下在大赛中,创新性得分最高的两支队伍,也即获得特别奖的禁止实习队和强东队。这两个团队一个在特征设计上比较有创新性,一个在模型的使用上应用了较新的模型。
其中,禁止实习队比较充分地挖掘了在淘宝的场景下用户序列性的浏览商品商店的行为,提出了新方法,对用户的序列化行为进行特征设计,拿到了比较好的效果。
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41
- 14:34从加密OG到特朗普家族加密顾问,孙宇晨要做加密天命人?
- 21:43皙之密:助力肌肤焕变,闪耀自然美之光
- 21:15全美世界:以爱为笔,绘就辉煌征程
- 16:31JJ斗地主抵制赌博,开创棋牌游戏辉煌新纪元
- 17:55周大生黄金珠宝嘉年华喜迎新春,精选主推产品送上蛇年祝福
- 12:53“蓄势待发”的熊猫湾区首秀,海珠广场迎新春艺术盛宴
- 15:51小年贺岁,周大生经典成长礼记系列十二生肖串珠祈福新年
- 15:00从蓝色海洋畅想绿色未来,亚洲金融论坛第一财经工作坊成功举办
- 14:57天津新春发放消费券,汇正财经关注消费结构升级领域
- 13:49温致科技发布数字健康行业新物种
- 18:23周大生经典十万份黄金好礼大放送,点燃蛇年春节喜气氛围
- 11:13JJ斗地主拒绝赌博,引领棋牌游戏新风尚
- 10:37行业唯一!海尔智家获最具投资价值奖
- 10:24周大生黄金珠宝嘉年华即将盛大开启,十万份黄金好礼贺蛇年春节
- 09:28惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 19:08预见2025:HTX的全球化蓝图与战略突破
- 18:22惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 18:08“陆地航母”上线,人类距离打飞的上班还有多久?
- 17:54亚马逊最大规模电动卡车订单落地:豪购超200辆奔驰eActros
- 15:36百利好推出全新交易产品,开拓财富新篇章
- 21:10七座商务车都有哪些?上汽大通 MAXUS G90亮点解析
- 21:05云米电器质量怎么样,云米燃气热水器AI Super2:智享未来,温暖每一
- 20:51CR450动车组样车正式发布,标志着中国高铁技术新突破
- 20:03IP+文旅还能怎么玩?酷乐潮玩全国文旅首店给出了答案
- 18:09周大生大师艺术珠宝以璀璨黄金诠释印象派艺术
- 15:58CES新物种(下):中国原创,世界领先——通用软体机器人技术赋能全球生产
- 10:38CES 2025观察:海信空调的新风,继续吹向AI风口
- 16:22周大生经典在传承中创新,精心打造东方文化精品珠宝
- 15:59智能驱动,豫见未来——“热AI在郑州·百度品牌之夜”圆满落幕
- 15:49驰援西藏,周大生捐款助力日喀则抗震救灾