漫谈阿里大数据(5)
比如蚂蚁小贷,通过数据和产品的紧密融合,基于算法的数据智能实时发挥作用,最终能实现秒级放贷,这个是传统的金融服务没法想象的。同时,获贷后的用户产生的数据,又被源源不断的采集起来,作为未来更多判断的基础。 再比如搜索系统,用户的任何一次点击行为,都被实时记录并反馈到智能化的算法引擎,不仅优化了你的搜索结果,而且优化了任何搜索这个关键词的人得到的搜索结果。 这样的智能商业,才是对传统商业的颠覆,才是真正的“降维”攻击,胜者一骑绝尘。 四、反馈闭环 上面已经谈到自动化、智能化、可学习提升的反馈闭环,闭环的形成决定了智能化商业的形成,但是,闭环的效率决定了大数据的使用效率。所以说,一个好的大数据产品,不仅仅是有用户反馈闭环,而且需要一个高效的用户反馈闭环。 用户行为通过产品实时反馈到数据平台,通过数据智能算法,优化结果又通过数据产品实时提升用户体验,在这样的反馈闭环中,数据既是高速流动的介质,又持续增值;算法既是推动反馈闭环运转的引擎,又持续优化;产品既是反馈闭环的载体,又持续改进功能,在为用户提供更赞的产品体验的同时,也促使数据反馈更低成本、更高效率地发生。 五、数据生态 DT时代将催化出大数据生态。DT时代的数据生态,我从如下两个方面来定义: 一、数据交换/交易市场 智能商业的基石就是数据,作为智能商业的第一要务,数据是最重要的。 数据作为生产资料,大数据时代的血液,好比汽车的汽油,没有汽油,再精美高端的汽车也无法运转。而数据的来源往往是多方面的,未来一个企业所用到的数据往往不仅仅是自身的数据,甚至是多个渠道交换、整合、购买过来的数据。对于“羊毛出在猪身上”的大数据商业形态,数据一定是流动的,数据只有整合关联,才能发挥更大的价值。 但是数据要实现交换,交易,正如我上文所言,我们最终所必须解决的是法律法规,数据标准等一系列问题。 二、算法经济/生态 Gartner分析认为,算法将形成一个全球性的交易市场,就像当年的App,催生出全新一代的专业技术初创企业,并且革新机器与机器之间的交互方式。 同时,更多的数据将生成更好的模型和用户体验,进而吸引更多的用户以及更多的数据,而这将导致储存和计算数据的成本持续降低。 Gartner曾发表报告,对算法经济可能带来的市场影响做出评估。 Gartner认为,无可避免地,算法经济将创造一个全新的市场。人们可以对各种算法进行买卖,为当下的公司汇聚大量的额外收入,并催生出全新一代的专业技术初创企业。 想象这样一个市场:数十亿的算法都是可以买卖的,每一个算法代表的是一种软件代码,能解决一个或多个技术难题,或者从物联网的指数级增长中创造一个新的机会。 算法是创造智能应用的基石,是大数据的核心价值。 也就是说,多个机器学习算法可以结合起来成为更强大的算法,从而更好地分析数据,充分挖掘数据里的价值。 在算法经济中,前沿的技术项目,无论是先进的智能助理,还是能够自动计算库存的无人机,最终都将落实成为实实在在的代码,供人们交易和使用。 广义的算法存在于大数据的整个闭环之中,从大数据平台、ETL(数据采集,数据清洗,数据脱敏等)、数据加工、数据产品等的每一个层面都会有算法支持。算法可以直接交易,也可以包装成产品、工具、服务,甚至平台来交易,最终形成大数据生态中的一个重要组成部分。 甚至有人认为好的算法能够摆脱很多公司对大数据的过度依赖。尽管数据在DT时代可能是最昂贵的生产资料,但若算法足够强大,大数据并非必须。如迁移学习能让计算机摆脱对大数据的严重依赖,从而让人工智能不再只是“富人的游戏”。 正如App经济变革了人类与机器的交互方式一样,我们将会看到,算法经济将会促进下一代机器对机器互动演进的巨大飞跃。 人们将会通过产品使用的算法来评价它的性能好坏。企业的竞争力也不仅仅在于大数据,还要有能够把数据转换为实际应用的算法。因此,CEO应该关注公司有产权的算法,而不仅仅是大数据。 正在涌现的机器智能平台可凭借“模型作为服务”的方式,托管预训练过的机器学习模型,从而令企业能够更容易地开启机器学习,快速将其应用从原型转化成产品。当企业们采用了微服务(microservice)发展范式后,接入并使用不同的机器学习模型和服务以提供特定功能的能力将变得越来越有价值。 所有的这一切,最终也离不开云计算,数据平台天然就是基于云计算来实现。而数据交换,算法交易则需要一个商店,云端就是目前最好的商店。不管是数据的互通,还是基于云端预训练、托管的机器学习模型,将促使每个公司的数据产品都能大规模地利用算法智能。 六、数加平台 2016年1月20日,阿里云在2016云栖大会上海峰会上宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”。 这一平台承载了阿里云“普惠大数据”的理想,即让全球任何一个企业、个人都能用上大数据。数加平台首批集中发布了20款产品,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。 “这是一个人人都在谈大数据的时代,但只有极少数人在用大数据。” 阿里云大数据事业部资深总监徐常亮特别强调“这些技术至少领先业界三年”,在输出自身大数据能力的同时,“数加”还向有数据开发能力的团队开放。这些团队可入驻“数加”,借助数加上的工具为各行业提供数据服务。“就像在淘宝开店一样,只是他们售卖的是专业能力。” 那数加到底是什么呢?我们从如下几个方面来分析一下: 一、数加的来世今生 我觉得阿里对数据的重视非常早,而且也是非常愿意投入的。 早在阿里云成立之前,应该是06、07年左右,七公就组建了一只数据平台部的团队,它就是数据事业部(CDO)的前身。在云端、数据魔方、淘宝时光机、淘宝指数、TCIF、阿里妈妈DMP、全景洞察等都是出自这个团队之手 ,这个团队专业解决淘宝早期数据仓库、数据集市、以及数据分析相关的专业问题。 09年的时候,王坚来到阿里,讲了云计算、大数据未来的愿景,可是当时没有几个人能听懂,但是,我觉得马总还是很厉害的,他信了。然后,阿里提出了云计算、大数据相关战略,阿里云也就在那时成立了。 数据平台事业部最早使用的并不是现在在用的MaxCompute(原ODPS),而是Hadoop,原hadoop集群令名为云梯1,当时阿里也在研发自己的计算平台,就是原ODPS,并令名为云梯2。 云梯2在开始的时候,并不是很好用,不过,拿到了内部一个很大的客户,就是阿里金融的蚂蚁小贷。基本上也可以这么说,没有蚂蚁小贷的磨合,基本很难有现在的MaxCompute。 云梯1、云梯2在内部争吵了很长一段时间,后来,出于各方的考虑,公司决定,启动登月项目,从云梯1全部迁移到云梯2。 不管是云梯1,还是云梯2,其实,都只是整个大数据技术生态系统中很小的一块,也就是计算引擎那一块,正如我上面所讲的,一个属于hadoop生态系统,一个属于阿里云自建的数加生态系统。 (编辑:ASP站长网) |