业界 | 什么是最小可行性数据产品(MVP)?如何用它做机器学习?
编译:胡笳、睡不着的iris、halcyon
本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。
在执行计划的过程中,他发现,作为一名优秀的数据科学团队的领导人,必须定义机器学习产品路线图。
结合自身经历,本文作者带大家探究一个好的最小可行性产品(MVP)究竟是什么,以及机器学习产品一个好的MVP的不同维度究竟有哪些。
什么是MVP?
在Pivotal Labs工作期间,我接触到了Eric Ries推广的精益创业思想。精益创业其实是当今最一流的产品开发方法论。其核心思想是,通过不断的收集客户的反馈来开发产品或服务,从而可以降低产品/服务失败的风险(开发-衡量-学习)。
![]() |
![]() |
在这个案例中,我们以一辆集成了用户的反馈的汽车告终。一个大众熟悉的例子是Airbnb(爱彼迎,旅行房屋租赁社区)。2007年Brian Chesky 和Joe Gebbia想创业,但是无力承担旧金山的房租。
与此同时,有一个设计展会正要在这个城市举办,他们决定将他们的公寓出租给那些没有在附近找到酒店的展会与会者。他们为公寓拍照,并将照片上传到一个简单的网站上(见下图),很快在展会期间就有三个付费客人。这个小测试带给他们宝贵的领悟:人们愿意付钱留在别人的家中而不是去酒店,并且不只是附近的大学毕业生才会注册这个网站。之后他们便创建了Airbnb,接下来的事大家都知道了。
![]() |
让我们以Juicero(智能榨汁机初创公司)为例。他们从投资者手中募集了1.2亿美元,用于创造一款精心设计的榨汁机,经过一段时间的开发后以非常高的价格进行发售(最初的原价为699美元,随后降至399美元)。[page]分页标题[/page]
除了榨汁机,你还可以购买装满原生水果和蔬菜的果蔬包,每包售价为5-7美元。可能有些人已经听说过这个公司,但这家公司目前已经倒闭了,因为它并没有意识到其实客户并不真正需要一款价格高昂的榨汁机来将果蔬包榨汁。
他们并不真正了解他们的客户。一个简单的用户研究就能让他们意识到,客户并不需要昂贵的机器来挤榨果蔬包,只需要两手挤压就足够了。
![]() |
MVP概念也可以被应用于机器学习,因为最终,机器学习也是整个产品的一部分或者就是最终产品本身。考虑到这一点,我认为有三个重要的维度。
1.最小可行模型
![]() |
![]() |
然后再根据结果,可能会增加越来越多的层。这种方法非常直接,实际上是解决热狗与非热狗分类问题的最佳解决方案,因为不需要特征工程(我们基本上可以将原始图片作为输入数据)。但是对于大多数的分类问题,除非它们不是那些像在计算机视觉或自然语言处理中遇到的专业问题,否则这不是解决这类问题的最佳方法。
深度学习的最主要缺点在于其缺乏可解释性。通过采用的网络种类来解释此神经网络的结果通常很难。并且你会花费大量的时间用在神经网络的调参上,但对模型性能的提升却影响甚微。
从简单开始,建立基线。对于大多数分类问题,从逻辑回归这类线性模型入手会比较可行。尽管在许多实际应用中,线性假设是不切实际的,但是,逻辑回归做得相对好并可以提供基准,亦称为基准模型。它的主要优点也是可解释性,并且可以直接得到条件概率,这在很多情况下十分方便。
为了改进模型并放宽线性假设的条件,可以使用基于树的模型。主要有两大类这样的模型,Bagging和Boosting模型。实际上,它们都使用的是决策树,只是采用不同的方式训练模型。最后,如果所有的方法都已用,你还想不断改进你的模型,那么我们就可以利用深度学习技术。
2.最小可行性平台
![]() |
但在购买之后,他们甚至都不考虑潜在的用例,便将数据加载到他们的数据湖中。然后,他们听说了一个名为Apache Spark的东西,并将其添加到基础设施层。
现在,由于人工智能已经成为流行的风潮,他们也开始购买GPU,并在其上添加如TensorFlow那样的深度学习框架。在一个地方拥有所有(酷)工具听起来很棒吧?然而,最大的问题是,将所有数据放入数据湖之后,发现数据与用例并不匹配。要么他们没有收集到正确的数据,要么不存在支持潜在用例的数据。
更可行的方法不是考虑硬件或者软件,而更多的是解决问题。通过这种方法,可以尽早了解需要哪些数据来解决问题,并且还能避免各种数据错误。除此之外,迄今为止我所看到过的很多机器学习问题,实际上都可以在本地机器上解决。他们并不需要对基础设施进行巨额投资。
而且,如果数据量真的很大,他们可以使用AWS或Google Cloud等云服务提供商的服务,便可以非常轻松地启动一个Spark群集。如果他们有一个深度学习问题,也会有很多的选择。不但可以选择已经提到的云服务提供商,也可以选择如FloydHub那样提供的平台级服务(PaaS),在云上训练和部署深度学习模型。
3.最小可行(数据)产品
最后,我想谈论的一点是数据产品本身。本质上,数据产品有很多例子,比如聊天机器人、垃圾邮件检测器等等——这个清单很长(更多的机器学习产品,请查看Neal Lathia的精彩文章)。但是在这里,鉴于当前我在电子商务领域工作,我将专注于推荐服务。
![]() |
![]() |
总结
在这篇文章中,我讲述了关于MVP对机器学习产品的意义的理解。实质上,就是从小处开始不断迭代。此外,为了更清楚地解释我对机器学习产品的MVP代表的意思,我讨论了三个主要维度,我认为这对于优秀的MVP数据产品至关重要:
最小可行性模型,
最小可行性平台,
最小可行(数据)产品。
本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 19:542025中国隐形独角兽企业沙龙(福州站)暨福建省隐形独角兽企业发展研讨会
- 16:01携手共创可持续未来:vivo发布2024可持续发展报告,以科技之力绘就共
- 17:05被师傅鸽到崩溃?十年卫浴老板血泪总结:找对帮手太重要!
- 14:43北京金海汇成投资有限公司的全球资产配置逻辑
- 14:26入选上海智库报告文库,第一财经研究院“小巨人”调研专著出版
- 21:03京东科技赋能中原企业,80家企业已成功入驻产业园
- 18:36首次上榜《财富》中国500强,盈峰集团的产业赋能牛在哪?
- 10:08孙宇晨的而立之年:争议未远,传奇已立
- 15:27北京金海汇成投资有限公司谈资产配置
- 12:17寻找自然受益型经济10万亿美元的商机 ——第一财经第十四度携手达沃斯举办
- 12:43燃情“苏超”!苏州队VS扬州队精彩上演!雪中飞助力苏州队3:0夺得首胜!
- 17:23卷不赢的618,中国商家在东南亚集体“回血”
- 13:57“基于北斗与遥感的数字应用产业互联关键技术及应用”科技成果评价会在京成功
- 13:39三贯穿定基调,五纵横拓图,六点连线筑生态——燕京510以全域营销战略登顶
- 10:05由新者胜 至行者达 第三届中国企业碳中和表现榜正式发布
- 09:53相关专家领导赴四川嘉好变频供水设备科技有限公司考察调研
- 21:20甘露特钠胶囊多地断供?谁来续上患者的记忆
- 08:59站酷×北京邮政×微博强强联手!“玩具杂货铺”玩转儿童节艺术营销
- 14:13再破圈!央视端午晚会新松大负载机器人“执手”专业舞者柔美共舞,人机“无间
- 12:30盼星星,盼月亮,就盼九期一
- 09:26双线狂欢引爆510盛夏:狮王“世界风味”VS燕京9號“社区烟火”
- 14:35如何借力抖音7亿日活?京东(郑州)基地手把手教电商企业数字化转型
- 16:35150+项专利死磕滤芯,云米引领家庭饮水进入矿泉时代
- 10:35必有人,重写爱与浪漫 宝珀Ladybird贝蒂女士系列
- 10:34宝珀Ladybird贝蒂女士系列钻石舞会炫彩腕表 焕新演绎尊贵皇家紫色
- 10:36HTX携手HTX DAO共庆BTC披萨节,开启Web3全球化共识新篇章
- 10:08化学工业出版社一行到访外研在线 调研出版数字化转型路径
- 21:31BTC披萨节遇上TRUMP晚宴,HTX送出百万USDT狂欢福利
- 16:09HTX“火星计划特别版”新晋候选人出炉,用户太空之旅进入冲刺阶段
- 13:502025第四届石油石化装备产业科技大会暨科技创新成果展览会成功召开


