业界 | 什么是最小可行性数据产品(MVP)?如何用它做机器学习?
编译:胡笳、睡不着的iris、halcyon
本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。
在执行计划的过程中,他发现,作为一名优秀的数据科学团队的领导人,必须定义机器学习产品路线图。
结合自身经历,本文作者带大家探究一个好的最小可行性产品(MVP)究竟是什么,以及机器学习产品一个好的MVP的不同维度究竟有哪些。
什么是MVP?
在Pivotal Labs工作期间,我接触到了Eric Ries推广的精益创业思想。精益创业其实是当今最一流的产品开发方法论。其核心思想是,通过不断的收集客户的反馈来开发产品或服务,从而可以降低产品/服务失败的风险(开发-衡量-学习)。
![]() |
![]() |
在这个案例中,我们以一辆集成了用户的反馈的汽车告终。一个大众熟悉的例子是Airbnb(爱彼迎,旅行房屋租赁社区)。2007年Brian Chesky 和Joe Gebbia想创业,但是无力承担旧金山的房租。
与此同时,有一个设计展会正要在这个城市举办,他们决定将他们的公寓出租给那些没有在附近找到酒店的展会与会者。他们为公寓拍照,并将照片上传到一个简单的网站上(见下图),很快在展会期间就有三个付费客人。这个小测试带给他们宝贵的领悟:人们愿意付钱留在别人的家中而不是去酒店,并且不只是附近的大学毕业生才会注册这个网站。之后他们便创建了Airbnb,接下来的事大家都知道了。
![]() |
让我们以Juicero(智能榨汁机初创公司)为例。他们从投资者手中募集了1.2亿美元,用于创造一款精心设计的榨汁机,经过一段时间的开发后以非常高的价格进行发售(最初的原价为699美元,随后降至399美元)。[page]分页标题[/page]
除了榨汁机,你还可以购买装满原生水果和蔬菜的果蔬包,每包售价为5-7美元。可能有些人已经听说过这个公司,但这家公司目前已经倒闭了,因为它并没有意识到其实客户并不真正需要一款价格高昂的榨汁机来将果蔬包榨汁。
他们并不真正了解他们的客户。一个简单的用户研究就能让他们意识到,客户并不需要昂贵的机器来挤榨果蔬包,只需要两手挤压就足够了。
![]() |
MVP概念也可以被应用于机器学习,因为最终,机器学习也是整个产品的一部分或者就是最终产品本身。考虑到这一点,我认为有三个重要的维度。
1.最小可行模型
![]() |
![]() |
然后再根据结果,可能会增加越来越多的层。这种方法非常直接,实际上是解决热狗与非热狗分类问题的最佳解决方案,因为不需要特征工程(我们基本上可以将原始图片作为输入数据)。但是对于大多数的分类问题,除非它们不是那些像在计算机视觉或自然语言处理中遇到的专业问题,否则这不是解决这类问题的最佳方法。
深度学习的最主要缺点在于其缺乏可解释性。通过采用的网络种类来解释此神经网络的结果通常很难。并且你会花费大量的时间用在神经网络的调参上,但对模型性能的提升却影响甚微。
从简单开始,建立基线。对于大多数分类问题,从逻辑回归这类线性模型入手会比较可行。尽管在许多实际应用中,线性假设是不切实际的,但是,逻辑回归做得相对好并可以提供基准,亦称为基准模型。它的主要优点也是可解释性,并且可以直接得到条件概率,这在很多情况下十分方便。
为了改进模型并放宽线性假设的条件,可以使用基于树的模型。主要有两大类这样的模型,Bagging和Boosting模型。实际上,它们都使用的是决策树,只是采用不同的方式训练模型。最后,如果所有的方法都已用,你还想不断改进你的模型,那么我们就可以利用深度学习技术。
2.最小可行性平台
![]() |
但在购买之后,他们甚至都不考虑潜在的用例,便将数据加载到他们的数据湖中。然后,他们听说了一个名为Apache Spark的东西,并将其添加到基础设施层。
现在,由于人工智能已经成为流行的风潮,他们也开始购买GPU,并在其上添加如TensorFlow那样的深度学习框架。在一个地方拥有所有(酷)工具听起来很棒吧?然而,最大的问题是,将所有数据放入数据湖之后,发现数据与用例并不匹配。要么他们没有收集到正确的数据,要么不存在支持潜在用例的数据。
更可行的方法不是考虑硬件或者软件,而更多的是解决问题。通过这种方法,可以尽早了解需要哪些数据来解决问题,并且还能避免各种数据错误。除此之外,迄今为止我所看到过的很多机器学习问题,实际上都可以在本地机器上解决。他们并不需要对基础设施进行巨额投资。
而且,如果数据量真的很大,他们可以使用AWS或Google Cloud等云服务提供商的服务,便可以非常轻松地启动一个Spark群集。如果他们有一个深度学习问题,也会有很多的选择。不但可以选择已经提到的云服务提供商,也可以选择如FloydHub那样提供的平台级服务(PaaS),在云上训练和部署深度学习模型。
3.最小可行(数据)产品
最后,我想谈论的一点是数据产品本身。本质上,数据产品有很多例子,比如聊天机器人、垃圾邮件检测器等等——这个清单很长(更多的机器学习产品,请查看Neal Lathia的精彩文章)。但是在这里,鉴于当前我在电子商务领域工作,我将专注于推荐服务。
![]() |
![]() |
总结
在这篇文章中,我讲述了关于MVP对机器学习产品的意义的理解。实质上,就是从小处开始不断迭代。此外,为了更清楚地解释我对机器学习产品的MVP代表的意思,我讨论了三个主要维度,我认为这对于优秀的MVP数据产品至关重要:
最小可行性模型,
最小可行性平台,
最小可行(数据)产品。
本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 18:01易萃享:27 年康力匠心,铸就数智健康新标杆
- 17:54易萃享:以数智之力,让健康管理触手可及
- 17:27易萃享:不止是营养机,更是家庭健康管理中心
- 17:19易萃享:AI 赋能,解锁 “一人一案” 的营养新范式
- 17:09易萃享:1000 日夜打磨,让精准营养走进寻常家
- 19:41政产协企四方联动 | 浙江省住建厅、九牧、链筑、房企共研:好房子需配备智
- 19:40武汉智博会 | 卫浴独家!九牧携产业链伙伴智造中国“好房子”
- 19:39九牧领跑科技卫浴新赛道,“好房子” 实践响应十五五规划
- 20:40东方药林百年纳:科技赋能 开启活力健康新航程
- 20:35东方药林百年纳:四大专利加持 解锁现代健康新方案
- 20:29东方药林魔术丝:传承本草智慧 点亮现代秀发之美
- 20:18魔术丝白黑客防脱育发液:天然植萃赋能 解锁秀发焕变密码
- 20:06竹奥秘毛巾:东方药林创新竹锟科技的匠心之作
- 19:23东方药林竹奥秘:解锁竹萃能量 重塑健康生活理念
- 12:21南京市人才一期发展基金合伙企业子基金遴选结果公布
- 18:43水井坊发布2025年前三季度业绩报告
- 17:58去信任的商业文明:当算法取代权威,当信任回归众人
- 20:29助推高质量产业发展·创投实录|华青领创:敢于“掀桌”,方见新“视界”
- 12:32“第一届传媒可持续发展·ESG作品榜”正式发布 2025企业可持续发展大
- 18:28【一个世界 无限场景】泽瑞萬象元宇宙计划正式启动 & 全球首秀
- 07:45纳米晶体甲地孕酮,让肿瘤患者体重“向上”,生存“向上”
- 21:40创投集团直投企业瑞为新材获得第七批专精特新“小巨人”企业认定
- 12:19九牧智能卫浴助建中国“好房子”,杭州好房子私享会今日召开!
- 14:04金海汇成投资有限公司如何打造高效资产证券化产品
- 17:01ChainVault亮相伦敦区块链大会:引爆欧洲RWA新风口
- 17:00Auricore亮相伦敦区块链大会,定义黄金RWA全球新标准
- 17:00STC亮相伦敦区块链大会,开启绿色RWA的新篇章
- 16:59POLEX亮相伦敦区块链大会:AI驱动欧洲RWA金融新纪元
- 15:15专业筑基,体系赋能:YS(应氏)家族资产管理体系获著作权保护
- 11:34第一财经《秒懂金融》AI数智人应用案例再获奖项












