去搜搜
头像
机器学习平台,机会到底大不大?
2019-11-27 20:41

机器学习平台,机会到底大不大?

文章所属专栏 前沿技术情报所

2016年,一位名叫Makoto Koike的日本青年工程师回到家乡的黄瓜农场,准备子承父业。种植黄瓜多年的父母苦于黄瓜的分拣流程,需要按照黄瓜的卖相,把不同类型黄瓜按照大小、笔直、均匀、水嫩程度分拣到一起,卖给批发商,再把卖相不好的黄瓜拣到一起,低价处理,过程耗时耗力。

 

Makoto想用技术减轻劳苦,他拍摄了约7000张黄瓜照片,传到谷歌云的机器学习平台,通过TensorFlow深度学习框架,训练模型去识别黄瓜,并对黄瓜按不同特质进行分类。在此基础上,Makoto做了一个黄瓜分拣机,再配合上自动传送带系统,可以将每根黄瓜识别出来后再传送至程序指定的箱子。这样,降低了分拣黄瓜过程中的劳累。


系统对黄瓜进行分类

 

一个普通人能够开发出AI算法去识别黄瓜,解决现实中的问题,关键是利用了机器学习平台,用户把数据输入进去,平台生产算法、模型,去辅助业务,帮助企业甚至个人降低开发AI的门槛。


上面的案例当然是个案,具备这样的技术能力的个人开发者很少。开发AI项目对技术、算力要求很高,开发成本也很高,但对于有一定技术人员的企业来讲,可以通过这种平台,低成本、规模化地开发AI应用。

 

这也衍生出一门生意,既然越来越多的企业有应用AI的需求,且有一定的数据量,但本身没有AI技术积累,没有足够多的AI工程师团队,可以承接这种需求,做一个机器学习平台,平台有数据处理的能力,如数据清洗、数据筛选、数据标注等,将数据归类并打标签,提供代码开发工具、算法库,做模型训练,并提供数据可视化的工具,将生成的模型应用到具体的行业当中。比如在金融行业,可以做反欺诈模型的训练,在工业领域,可以做工业仿真,可以做AI质检,以及设备的预测性维护。

 

就像有人所说的那样,如果把传统企业应用AI技术看做淘金,那么机器学习平台就是扮演为淘金者卖水、卖铲子的角色。这个领域太To B了,大部分人不太了解。其实业内也困惑:在AI浪潮中,机器学习平台发展机会到底如何,到底大不大?

 

玩家不少,但整体市场规模还不大

 

先来盘点一下这个赛道吧。机器学习平台领域有很多熟悉的公司,包括阿里云、腾讯云、百度云、金山云、华为云、Ucloud等公有云服务商旗下的机器学习平台, AWS、微软、SAP这样的外资云服务厂商,浪潮、东软这样的传统IT服务商,第四范式这样的新兴AI创业企业,也有九章云极、星环科技、绿湾科技这样的大数据服务商开发的机器学习平台

 

另外还有一些公司因为内部场景需要规模化地应用机器学习,又怕数据对外共享影响安全,就自己开发机器学习平台,比如滴滴、美团等互联网公司,都有机器学习平台,还有一些传统制造业企业如上汽集团,也在做机器学习平台去支撑自己的业务。目前这些平台是不对外的,主要用于支持自身的业务,不过也不排除未来会对外输出。

 

IDC数据显示,目前行业规模还不大,不过增速比较可观。2018 年应用机器学习给中国AI市场带来的投入规模达百亿,预计2018-2023年间商业化机器学习开发平台的复合增长率将高达62.0%。在市场格局方面,IDC发布的《中国机器学习开发平台市场评估》显示,阿里云、腾讯云、AWS、第四范式位于该市场的领导者象限。按营收来看,第四范式市场份额居第一位。


当然,现在只有IDC发布这个领域的数据报告,数据准确度可能有待考证。


IDC发布的中国机器学习开发平台市场格局图

 

行业增长的大背景应该是:企业应用AI的兴趣正在抬升,大家都想看看机器学习能给业务带来什么帮助。


在这个赛道上,公有云厂商目前构成了主力。公有云厂商算力强,且有规模化的客户资源。在公有云平台,通过对数据的训练形成模型之后,可以通过公有云分发出去,还可以迭代,速度更快。但也有劣势。


上汽AI赋能平台产品总监谭黎明对虎嗅Pro表示,公有云平台更多是提供算力资源,上面的场景化不是很充分,虽然有解决方案,但大多是跟别人合作,跟他们一起做一些案例,挂上去。这类厂商本质上他们做PaaS平台,目的还是更好卖底层的算力资源。另外,它其实更适合于全部东西都在云上的企业,在比较通用的场景下使用。

 

第四范式是这个领域比较知名的新兴企业。2018年年初,第四范式宣布完成B+轮融资,获得来自工商银行、中国银行、建设银行等三家国有银行及所属基金的联合战略投资。年底又在C轮融资中获得农行和交行的融资,这样五大行都投了这家公司。这让第四范式名声大噪,也让第四范式所在的机器学习平台领域受到关注。

 

除此之外,大部分机器学习平台还没有“出圈”,名气不大,比如一些大数据软件服务商、数据科学平台,包括星环科技、九章云极等,长期服务于B端,为客户提供大数据平台,当AI兴起后,也都基于数据能力在做机器学习平台,为客户提供模型。这些厂商也在获得资本关注。星环科技近日刚完成数亿元约5亿元人民币D2轮融资,投资机构包括金石投资、中金资本等。


大数据服务商进入机器学习平台这个领域,主要是因为机器学习平台也是基于对数据资源的梳理之上,需要数据工具。星环科技创始人孙元浩对虎嗅Pro表示,机器学习平台本身是需要提供平台和工具的,星环科技本来也提供数据的各种工具,也需要更多的工具提供给客户。选了机器学习平台这个赛道,是因为它可以跟大数据产品线实现融合。

 

玩家不少,但整体上看,相比于计算机视觉、语音语义识别等AI赛道,机器学习平台这个赛道规模要小不少。孙元浩表示,这个赛道其实非常窄,整体市场不大。单靠机器学习平台这个工具的话,可能会有生存的问题。所以星环科技在将机器学习平台放在大数据软件中向客户一块出售。


对金融行业客户依赖度较高


器学习平台在落地方面,一个主要的问题是比较依赖金融行业,包括第四范式、九章云极、星环科技等公司的机器学习平台,主要客户都是金融机构,更不用提同盾数据这样的主打金融领域的科技公司了。在金融领域,反欺诈是主要的应用,此外还有客户营销、智能客服、智能催收、OCR识别等。第四范式、九章云极等平台经常被当做金融科技公司来看待。

 

金融领域之外,落地规模化落地不多。


能源领域客户正在开发中,因为电网等能源板块其实数据化已经做得非常好,也有通过机器学习去做电量预测、设备维修预测、原材料价格预测等需求,因此也成了机器学习平台的重要应用方向。

 

工业领域也在应用机器学习。阿里云、腾讯云、百度云等云服务厂商旗下的机器学习平台都有工业领域落地的案例。一些工业企业甚至自己在搭建机器学习平台去改善业务。


上汽集团在上汽云计算中心的基础上,与IT咨询公司ThoughtWorks合作,做了iGear AI机器学习平台,可以做全流程数据采集,形成数据集,供模型去学习训练,得到结合自己业务场景的模型,发布到线下或者边缘设备里面。目前该平台的数据主要是上汽集团内的数据,应用场景也集中在上汽集团内,用这个平台去支持集团的业务,如物理卡车自动驾驶,自主泊车,生产线的智能缺陷检测,机器设备的预测性维护等。

 

此外应用领域还包括零售、交通等。在零售领域,现在数据化运营方兴未艾,大企业有通过机器学习去做销售预测等方面的需求;交通领域,可以做交通路况预测、油耗预测等多种应用。媒体行业也在开始尝试,主要应用方向是智能化的内容推荐系统。曾有机器学习平台跟虎嗅谈过这方面的合作。第四范式也与人民日报社在算法层面合作,保证海量内容与用户个性化需求匹配。


不少领域都有尝试,不过还没有像金融行业一样实现规模化应用。

 

机器学习平台的机会在哪里?

 

机器学习平台的构架基本上大同小异,在底层有算力支持,以及数据存储;往上一层,是计算构架,做数据的治理、标注等操作;往上是算法层,包括机器学习算法、深度学习算法,一般的机器学习平台都至少会有上百种算法,通常包括传统机器学习算法、时间序列算法、NLP算法、图处理算法、计算机视觉等;算法用来生成模型,平台通常需要有模型效果对比、模型调优等功能。


阿里云机器学习平台PAI构架

 

在底层,则有数据中心、GPU集群等,做算力支持。


机器学习平台的模式,跟我们很熟悉的AI企业如商汤科技、旷视科技、科大讯飞不一样。大家都是靠着机器学习特别是深度神经网络的热潮发展起来的,像商汤、旷视本身也有深度学习平台,但发展模式不同。


商汤这类的AI企业,在与客户合作的时候,拿到数据,自己去或者找外包去做数据的整理、标注,再基于自身的技术团队去做特征提取,模型建立等,形成算法模型,工程化团队或者产品团队再结合客户需求,做软硬件结合,或者模块化,形成面向客户的解决方案。对于客户来讲,不需要有AI技术的深入积累,将解决方案部署完后,去用并评估效果做反馈即可。

 

机器学习平台这种模式,是提供数据整理、数据标注、代码开发、模型建立、可视化等方面的工具,去提供给客户,给客户做培训,客户使用这样的平台产品,去治理企业内外部积累的各种数据,并用机器学习的方式,以模型来指导、改进业务。客户不是简单的接受并部署一个解决方案,而是得到一个规模化应用机器学习的工具,参与到AI开发当中去,应用这个工具去改善业务。

 

传统的数据挖掘、数据分析更偏重数据洞察,机器学习更偏重于预测。例如第四范式与石化客户合作,用机器学习平台预测原材料的价格走势。第四范式副总裁柴亦飞表示,平台会整理价格的历史走势,给出一年里面大宗化工的原料的价钱的走势是怎么样的,然后用一些回归算法去预测这些大宗的商品在未来1-7天里面的价格大概是怎么样的。

 

在于机器学习平台的合作中,客户本身也需要有一定的技术团队储备,但相比于自己建团队去开发AI,自己从头去做数据的治理、标注,自己去建立算法团队、数据分析团队,开发AI模型,要节省更多时间与人力成本。通常这类客户本身有个小的数据分析团队就可以。

 

但接受AI公司一个打包的解决方案,看起来更省事。为什么还要用一个机器学习平台,自己参与建模开发?

 

其实客户的类型是多元化的,需求也是多样的。机器学习平台的客户往往是这样:


一些客户,比如银行、券商,本身有挺大的技术团队,业务的数据化程度也很高,同时对于数据安全的敏感度又比较高,更适合用机器学习平台去做业务需求中的AI应用。


传统制造业领域的企业,很难招到非常核心的、对算法和业务都很好理解的人,去使用机器学习平台可能是个好选择。

 

另外,购买AI解决方案,更适合于单一环节,且目标很明确,比如人脸识别、语音识别等感知方面的需求,这样成本更低,自己去开发费时费力;而机器学习平台所解决的,往往是数据智能方面的问题,比如想要解决影响产品销售的核心环节到底在哪里,某种产品的价格趋势是怎样的,就需要从数据中找到答案,这类问题往往是需要连环的、持续的跟踪研究,不是单次的研究就打住了。


这种需求更适合机器学习平台工具去解决。银行既需要从云从、商汤这样的公司去购买人脸识别的解决发案,也需要借助机器学习平台去挖掘数据中的信息,做反欺诈的业务,以及流程优化等管理任务。

 

从这些角度看,机器学习平台有客观的需求存在。

 

机器学习平台有局限性,赛道内独角兽少

 

看上去前景不错,但在喧闹的AI领域,机器学习平台有点低调,发声不多,领域内的独角兽相比于其他赛道也更少。


原因有这么几点:


很难获取中小企业客户

 

机器学习平台有自己的难点。首当其冲的当然是,对客户的技术团队有一定要求,至少要有一个小的数据分析团队才行,而大部分中小企业没这个储备。所以能做机器学习平台客户的,往往是大中型企业。机器学习平台要向中小企业客户下沉并不容易。因此在AI领域,相比于计算机视觉、语音识别、NLP等热门领域,机器学习平台这个赛道不大。


交付成本也不低

 

还有个问题是交付成本。像AI四小龙这样做行业解决方案的公司,方案的复用性不够高,做每个项目都要投入相应的团队,因此边际成本不易下降,在财务表现上,营收虽然快速增长,但盈利艰难,就像要在香港上市的旷视科技,2016年-2018年,旷视科技一直处于亏损状态,扣除非经常性损益,也只是实现微利,2018年和2019年上半年的营收利润率也都只有2.3%和3.4%。

 

做机器学习平台的公司,相当于为企业建立AI中台,将AI应用中很多可复用的工具提炼了出来。但依然会面临交付成本的问题。第四范式副总裁柴亦飞曾表示,在四大行做平均一个场景的交付代价在3-5个月。此外对于投入的项目,要为客户做两周左右的培训,让客户的数据分析人员、技术人员了解这个平台。一些客户比如永辉,还建立合资公司去推动项目的落地。交付的成本也不低。当然机器学习平台与客户的合作不是一次性的某个项目,而是往往会持续,这与AI四小龙的项目交付不尽相同。


不同行业的客户,交付成本会有一些差异。孙元浩表示,有的行业比如券商要研究量化策略,要自己去做风险分析,本来就有一支很强的数据分析团队,在这类行业,交付成本会比较低。银行类客户大致也是如此。这两个行业交付成本相对来说低一点,但在其他行业中,可能你需要直接打包解决方案给他,因为客户没有这样一个数据分析团队去做模型。

 

长于线上场景,难以处理线下业务


此外,目前机器学习平台更适合处理线上化的业务,在处理线下业务方面能力还不太够。

 

谭黎明表示,之前也考察了市场上的平台,发现大多是处理已经线上化的交易数据,应用也集中在金融领域,场景相对简单,不能适合上汽本身的业务需求,很难把AI全流程打通。上汽作为制造业企业,数据多是在生产一线通过传感器等手段,去采集数据,且需要根据AI开发需求去从若干个维度去采集数据。一个通用的机器学习平台很难做到。上汽自己做机器学习平台,把生产流程的信息都可以打通,上了平台的数据都整理出来,数据越来越多,做线上化的数据标注,标注的结果会交给机器,去训练模型,支撑更具体的业务。

 

制造业很多都是定制化的场景,不存在通用的解决方案,能够解决所有的情况,所以在市面买不到一个东西,帮助解决这些问题,所以企业必须具备自己的能力。此外,企业收集的业务数据比较敏感,也不合适在通用的机器学习平台上去训练。

 

机器学习平台的未来

 

这样来看,做机器学习平台的公司,确实面临这样的风险,作为潜在客户的大企业自己去做机器学习平台,市场可能进一步被分割。


作为平台来讲,要做的是提升技术壁垒,去实现更好的研发效率,以增强对客户的吸引力,也减少客户自己去做机器学习平台的想法。这也是众多的机器学习平台纷纷在自主机器学习、图计算等新领域投入研发精力的原因。有了这些技术,算法模型自动生成的能力更强了,而自己去做,研发成本很高。这样就能把客户锁定住。

 

除了技术上,还有运营上的策略,例如第四范式与永辉成立合资公司去推动AI的落地,也是想在资本、股权等层面去加强与客户的联系。柴亦飞表示,和永辉战略合作,里面有几个同事是第四范式输送过去的,他们到成立的合资公司里面上班。


柴表示:在某种程度上你和客户是甲乙方的关系,给他做一些项目,还是只能在外围做一些探索,而如果双方是成立合资公司这样的合作,真正能够切入到他的核心业务一起研究一下什么事情是值得做的,这种合作方式最直接


此外,机器学习平台可能需要给客户提供更多工具,因为要做机器学习平台,首先要有数据平台,解决数据处理的问题。在数据处理的更前端,要解决数据的生成、收集的问题。机器学习平台如何向中小企业去下沉?一个很重要的路径就是通过传感器、摄像头等设备,让企业更多业务数据化,再做数据的梳理,再做机器学习

 

在未来,机器学习平台的垂直化也是一个方向,通过对一个领域的深度聚焦,研发方向、产品设计思路也都更有行业特色。ThoughtWorks数据与智能服务技术总监冯英睿认为,未来场景化的机器学习平台应该会出现。


垂直化平台接触了行业里的大量数据,可以做自动化的数据预标记,很快地做模型发布上线。而通用平台的数据从头开始逐个去标,肯定就是劣势。


另外在复杂的系统中,比如自动驾驶,复杂模型是由很多子模型组成的。在部分场景下边,有些模型可以直接在平台上确认选择勾选。这样,很多模型对企业来讲也不用训练。这样场景化的机器学习平台会有一定优势。

本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声