盘点:满怀信心拥抱大数据时代的到来
尊敬的王主任、各位领导、各位嘉宾大家好!非常荣幸又一次到北大来参加论坛讲座,后面还有很多专家要专门介绍大数据,所以我就抛砖引玉做一个开场白。《满怀信心拥抱大数据时代的到来》,这是我今天演讲的题目。这个题目是我最近参加新加坡组织的国际CIO论坛得到的深切体会。
就我个人所知,这几年来国内做云计算的论坛很多,做物联网的论坛也很多,但是真正讲大数据的还很少,也许这是第一次,所以很荣幸在这里跟大家交换一下关于大数据的看法。我想跟大家谈三个方面的问题。
云计算和大数据迎来了新的时代。前面姚乐秘书长和王主任都对大数据做了一个很好的诠释,例如云计算,最近大家在讲到云计算的时候,不仅仅强调云计算资源整合和提高效率、节约资源方面的东西,更强调云计算和大数据在一起的这种计算能力、数据挖掘能力。也就是说,大数据蕴藏着大的宝藏。
大家都知道,我们中华民族有悠久的历史和智慧。比如说要找老中医看病,他们都是给我们号脉、望闻问切之后,再根据每个人的体质具体开方子,不可能有两个人的中药方子完全一样。但是现在我们在吃西药的时候,基本上很多人都吃同一种药,跟中医不一样。现在国外开始用的云计算和大数据,像人是最复杂的有机体,人体的各种数据来研究个性化的医药生物,就像中医一样,给你做的药只适合你个人吃,或者适合你这个家族或者这一类的人吃。当今这个时代是一个信息化助力社会全方位创新的重要时期,云计算、云服务、大数据成为新时期信息化重大突破的前沿,也为信息化展现新的前景。大家都知道,之所以有大数据,是因为信息技术发展过来的,引用Google里的数据,1982年以来CPU性能提高了3500倍,内存价格下降了45000倍、硬盘价格下降了360万倍。有人说:如果1982年一辆宝马车是四万美元,如果与硬盘同等速率下降,现在宝马车应该就卖一个美分。当然这是不可能的![page] 从73年前开始,人类进入了信息通信技术飞速发展的年代,68年前发明了计算机,53年前发明了集成电路,46年前发明了光纤,43年前进入了互联网时代,到了38年前出现了PC,33年前出现了移动通信,23年前出现了Web,1999年开始进入了3G时代,现在已经进入了以LTE为代表的4G时代。从DOS到GUI、Web、云时代、IOT时代,今后一定是以用户为中心的时代。所以出现了三个共享:网络共享、信息共享和资源共享,同时也开创了云终端后PC时代。今天胡主任在这里,我们到过他们企业看过,现在华能电力完全用Pad代替了过去的PC,生产指挥调度系统、决策系统、ERP终端现在全部用Pad。Pad有两种,一种是领导干部高端引用的是苹果,到了一线中层以下使用国产的Pad,这就完全取代了PC。
移动互联网也使得云计算更加普及,特别是计算机技术体系的演进。在原来的分布计算、网格计算、公用计算、机器计算的基础上,通过复杂扩展进入到虚拟化云计算时代,所以这就更强调了我们今后的服务,可以说迎来了基础架构变革的新时代。比如人们购买自来水不用自己家打井、接入电网不需要自备电场一样,这就是一个新的革命,当然也给我们提供新兴IT使用和交互模式,特别是云计算很重要地解决了异构和数据整合问题。现在国务院督牌建设全国保障房监管系统,这是典型的利用云计算平台解决异构数据和数据整合,现在有70多个城市在使用。为什么呢?因为大家都知道,在各个城市,买房子都要通过网上购房系统,每个城市都有自己的购房系统,而每个城市购房系统由各地在不同时间先后建设的,所以没有一个统一的模式,数据是异构的,整个基础架构也是异构的。比如说有Web方式的,也有CS方式,也有用甲骨文数据库的,也有用其他数据库的,所以我们要尽快整合起来就要采用云计算的方式。正是这样我们看到了新的计算模式,例如“4个O”模式:社交、位置、移动、商业,就使得移动互联网环境下数据共享、信息共享、服务共享变得更加现实。正因为在这样的大背景下,海量数据的增长是不可阻挡的洪流。大家也知道会有各种数据量的变化,但是我想强调,今天我们讲的“大数据”不等于“海量数据”,大数据是海量数据+复杂类型的数据和不断变化的数据,所以复杂类型的数据既包括了传统结构型数据,也包括了半结构化的数据,还包括了完全非结构化的数据。所以说大数据不同于海量数据的另外一点要特别注意:海量数据首先是量能特别大,常常是超过TB级的,但是大数据是在海量数据加工基础上形成的,可能它的绝对数量可能小于TB级,甚至是若干个GB级,也可以称为大数据。这点就是大数据一个很重要的概念。
大数据里头的90%的内容属于音像非结构化的内容。大数据时代正在到来,首先是有各种传感器,有各种社交媒体、电子交易数据、视频监控数据,还有其它的地理信息,以及医疗影像数据、基因序列,这些都构成了大数据。什么是大数据呢?它是数据级的概念,又大又复杂,用传统数据库没法儿处理或者处理起来很困难的,这样的一个数据我们才能叫做大数据。所以说大数据有三个特点:“三个V”,第一个就是要求速率非常高,第二个是一定持续快速增加的,第三个就是多样化的。这是大数据三个特点。
那么具体有多大?这里有一些数据是国外的数据。Facebook每周新增图片容量60TB,每日评论达到32亿条,图片总量超过了20个PB。它的操作也是非常大的,例如亚马逊目前有45万台服务器进行存储和数据处理。所以大数据首先从人而来,人人都是记者,我们的博客、微博,是所谓信息的提供商,我们的职业撰稿人就包括了写手,还有普通大众,SNA网络传播。另外一个从何而来呢?从机器,存储、加工、传播,另外还从物理世界而来,因为无所不在的感知数据,传感的节点,这些视频监控、监测点也是越来越多。数据虽然多,如果采集处理不好的话不一定能解决问题。比如深圳的案例就是一个豪华车撞了老百姓之后,引起网民置疑,因为就是没有真正采集到谁开的车,是不是顶包了。大数据就是做服务,如果不能提供服务,它也就没有意义,服务要面向物理世界、机器、人。比如说北京7月21号大雨造成了一些人不幸身亡。其实水务局一直有做北京市上水和下水,包括用物联网来管理,但是现在看起来还是没有完全管好。以至于北京市委书记还是说“北京基础建设还是薄弱”。所以人、机器、物的共同参与才能把数据价值真正的发挥出来。
(编辑:ASP站长网) |