业界 | 什么是最小可行性数据产品(MVP)?如何用它做机器学习?
编译:胡笳、睡不着的iris、halcyon
本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。
在执行计划的过程中,他发现,作为一名优秀的数据科学团队的领导人,必须定义机器学习产品路线图。
结合自身经历,本文作者带大家探究一个好的最小可行性产品(MVP)究竟是什么,以及机器学习产品一个好的MVP的不同维度究竟有哪些。
什么是MVP?
在Pivotal Labs工作期间,我接触到了Eric Ries推广的精益创业思想。精益创业其实是当今最一流的产品开发方法论。其核心思想是,通过不断的收集客户的反馈来开发产品或服务,从而可以降低产品/服务失败的风险(开发-衡量-学习)。
在这个案例中,我们以一辆集成了用户的反馈的汽车告终。一个大众熟悉的例子是Airbnb(爱彼迎,旅行房屋租赁社区)。2007年Brian Chesky 和Joe Gebbia想创业,但是无力承担旧金山的房租。
与此同时,有一个设计展会正要在这个城市举办,他们决定将他们的公寓出租给那些没有在附近找到酒店的展会与会者。他们为公寓拍照,并将照片上传到一个简单的网站上(见下图),很快在展会期间就有三个付费客人。这个小测试带给他们宝贵的领悟:人们愿意付钱留在别人的家中而不是去酒店,并且不只是附近的大学毕业生才会注册这个网站。之后他们便创建了Airbnb,接下来的事大家都知道了。
让我们以Juicero(智能榨汁机初创公司)为例。他们从投资者手中募集了1.2亿美元,用于创造一款精心设计的榨汁机,经过一段时间的开发后以非常高的价格进行发售(最初的原价为699美元,随后降至399美元)。[page]分页标题[/page]
除了榨汁机,你还可以购买装满原生水果和蔬菜的果蔬包,每包售价为5-7美元。可能有些人已经听说过这个公司,但这家公司目前已经倒闭了,因为它并没有意识到其实客户并不真正需要一款价格高昂的榨汁机来将果蔬包榨汁。
他们并不真正了解他们的客户。一个简单的用户研究就能让他们意识到,客户并不需要昂贵的机器来挤榨果蔬包,只需要两手挤压就足够了。
MVP概念也可以被应用于机器学习,因为最终,机器学习也是整个产品的一部分或者就是最终产品本身。考虑到这一点,我认为有三个重要的维度。
1.最小可行模型
然后再根据结果,可能会增加越来越多的层。这种方法非常直接,实际上是解决热狗与非热狗分类问题的最佳解决方案,因为不需要特征工程(我们基本上可以将原始图片作为输入数据)。但是对于大多数的分类问题,除非它们不是那些像在计算机视觉或自然语言处理中遇到的专业问题,否则这不是解决这类问题的最佳方法。
深度学习的最主要缺点在于其缺乏可解释性。通过采用的网络种类来解释此神经网络的结果通常很难。并且你会花费大量的时间用在神经网络的调参上,但对模型性能的提升却影响甚微。
从简单开始,建立基线。对于大多数分类问题,从逻辑回归这类线性模型入手会比较可行。尽管在许多实际应用中,线性假设是不切实际的,但是,逻辑回归做得相对好并可以提供基准,亦称为基准模型。它的主要优点也是可解释性,并且可以直接得到条件概率,这在很多情况下十分方便。
为了改进模型并放宽线性假设的条件,可以使用基于树的模型。主要有两大类这样的模型,Bagging和Boosting模型。实际上,它们都使用的是决策树,只是采用不同的方式训练模型。最后,如果所有的方法都已用,你还想不断改进你的模型,那么我们就可以利用深度学习技术。
2.最小可行性平台
[page]分页标题[/page] |
但在购买之后,他们甚至都不考虑潜在的用例,便将数据加载到他们的数据湖中。然后,他们听说了一个名为Apache Spark的东西,并将其添加到基础设施层。
现在,由于人工智能已经成为流行的风潮,他们也开始购买GPU,并在其上添加如TensorFlow那样的深度学习框架。在一个地方拥有所有(酷)工具听起来很棒吧?然而,最大的问题是,将所有数据放入数据湖之后,发现数据与用例并不匹配。要么他们没有收集到正确的数据,要么不存在支持潜在用例的数据。
更可行的方法不是考虑硬件或者软件,而更多的是解决问题。通过这种方法,可以尽早了解需要哪些数据来解决问题,并且还能避免各种数据错误。除此之外,迄今为止我所看到过的很多机器学习问题,实际上都可以在本地机器上解决。他们并不需要对基础设施进行巨额投资。
而且,如果数据量真的很大,他们可以使用AWS或Google Cloud等云服务提供商的服务,便可以非常轻松地启动一个Spark群集。如果他们有一个深度学习问题,也会有很多的选择。不但可以选择已经提到的云服务提供商,也可以选择如FloydHub那样提供的平台级服务(PaaS),在云上训练和部署深度学习模型。
3.最小可行(数据)产品
最后,我想谈论的一点是数据产品本身。本质上,数据产品有很多例子,比如聊天机器人、垃圾邮件检测器等等——这个清单很长(更多的机器学习产品,请查看Neal Lathia的精彩文章)。但是在这里,鉴于当前我在电子商务领域工作,我将专注于推荐服务。
总结
在这篇文章中,我讲述了关于MVP对机器学习产品的意义的理解。实质上,就是从小处开始不断迭代。此外,为了更清楚地解释我对机器学习产品的MVP代表的意思,我讨论了三个主要维度,我认为这对于优秀的MVP数据产品至关重要:
最小可行性模型,
最小可行性平台,
最小可行(数据)产品。
本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41
- 18:23周大生经典十万份黄金好礼大放送,点燃蛇年春节喜气氛围
- 11:13JJ斗地主拒绝赌博,引领棋牌游戏新风尚
- 10:37行业唯一!海尔智家获最具投资价值奖
- 10:24周大生黄金珠宝嘉年华即将盛大开启,十万份黄金好礼贺蛇年春节
- 09:28惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 19:08预见2025:HTX的全球化蓝图与战略突破
- 18:22惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 18:08“陆地航母”上线,人类距离打飞的上班还有多久?
- 17:54亚马逊最大规模电动卡车订单落地:豪购超200辆奔驰eActros
- 15:36百利好推出全新交易产品,开拓财富新篇章
- 21:10七座商务车都有哪些?上汽大通 MAXUS G90亮点解析
- 21:05云米电器质量怎么样,云米燃气热水器AI Super2:智享未来,温暖每一
- 20:51CR450动车组样车正式发布,标志着中国高铁技术新突破
- 20:03IP+文旅还能怎么玩?酷乐潮玩全国文旅首店给出了答案
- 18:09周大生大师艺术珠宝以璀璨黄金诠释印象派艺术
- 15:58CES新物种(下):中国原创,世界领先——通用软体机器人技术赋能全球生产
- 10:38CES 2025观察:海信空调的新风,继续吹向AI风口
- 16:22周大生经典在传承中创新,精心打造东方文化精品珠宝
- 15:59智能驱动,豫见未来——“热AI在郑州·百度品牌之夜”圆满落幕
- 15:49驰援西藏,周大生捐款助力日喀则抗震救灾
- 15:21CES 2025 现场直击 | 万勋科技携通用软体机器人惊艳首秀,多元化
- 16:33CES新物种(中):类人肌体,过人能力——通用软体机器人技术,加速机器人
- 15:35百利好解锁投资新机遇,全新交易产品正式上线!
- 19:52周大生国家宝藏系列青花新品匠心传承千古瓷韵
- 14:55CES新物种(上):机器人变软——通用化、可商用的软体机器人亮相CES
- 12:28中国首家鱼子酱体验店 卡露伽鱼子酱旗舰店落户浙江衢州水亭门
- 10:38商聚荷城 合创未来 第二届贵港市荷商大会在城区胜利召开
- 17:23蛇年贺岁启新程,与周大生经典共赴宋韵风华
- 09:56燕京啤酒率先拉开春节营销大幕,官宣国民闺女关晓彤为品牌代言人
- 16:42周大生新年珠宝璀璨亮相,共度2025年的美好时光