分析:大数据基础架构建设(3)
第一个全社会都关注大数据,如果大家对云有了解的话可能知道,云忽悠到今天有5、6年时间。但是刚开始忽悠云时候大家想谁在忽悠?全是业内人,很少业外人,云是我自己的革命,我们自己忽悠自己,忽悠别人买我们产品买我们设备。大数据不一样,前一些天看到“湘鄂情”转大数据,效益不好,这个有点靠谱。最近听说一个做饲料的也大数据,说明什么问题?说明全社会各个角度,大数据不是自由忽悠,搞IT的业内忽悠,而是全社会关注大数据有意思。
大数据上升到国家层面,首先是美国,美国人很少被忽悠,但是美国大数据上升到国家层面,他们有政策,总统签字,预算不大,几亿美金,投入非常多。这是国家战略,现在至少美国总统认为大数据应该搞。第二是我们国家,我们国家大数据没出现国家级的战略,但是各个省市很多。
大数据应用本质是什么?什么是大数据应用?我们现在好多产品,大数据应用很简单,业内对人工智能了解,开始雄心勃勃,计算机出来说把人脑子工作原理弄清楚模拟,万一人以后被机器人控制怎么办,人工智能科学家开始非常自豪,说怎么样没问题。其实经过几十年发展,我们终于发现机器代替不了人,主要问题在哪?在于我们搞不清楚人类大脑到底怎么运行。所以刚开始通过模拟大脑推理逻辑方式得到人工智能不现实。那种方式推下来以后,中间经过很多,最后得出来就是一些专家系统,比如中医的,把老中医这套东西所谓知识,知识表达方式固化到计算机里,下次把脉一输,甚至有自动摸脉的,这是外生的。我们现在系统里很少内生的,外部的告诉我这个脉怎么回事,一旦摸到没有的没办法了。内生智能针对不确定的因素。
大数据年代的知识架构,其实都是以前的东西,大数据现在的机器学习什么东西都是几十年前有的,大数据成为主流。为什么?我们现在这个年代,现在大量数据,以前获得数据很困难,现在上网,每天工作,咱们每天生活在数字空间,以前没有。我们数据无穷无尽。我们以前人工智能是因果式的,我们现在搞不清楚,没有办法推理,现在用概率推理。概率推理有50、60年,现在还这样。概率推理需要大量数据,有人做过人工智能,每个维度数据很少,大数据弥补,大数据弥补一点,使我们可能产生内生智能。大家看大数据应用,有没有自己内生的应用,我们以前的系统都可以,加入大数据算法分析东西就转化出来,这是大数据应用。现在大数据应用好多,这个不重要。我们关注真正的真金白银是有没有内生的智能。
有了内生智能典型大数据应用,大概分三种,主要还原事实,大数据可以还原,大数据面前没有谎言。如果我骗在座各位,我可能行,这个房间里这个封闭范围内可以,但是我们生活在网络上空间里,我骗得了100人,骗不了1千,最终骗不了整个互联网人,在大数据环境撒谎一定被揪出来。股市很多公司为了做事情,以前行,以前不知道,大数据时代会发现操作迹象。
大数据核心高维数据分析,大数据思维什么概念?让数据说话。以前统计数据一定因果关系认证以后用,为什么?我们想象事实是兔子乱跑,我们以前传统方法用大量天才科学家或者天才人物因果思路,我想编笼子抓兔子,以前方式需要天才思路,不是每个人可以。而大数据我们可以想象这个兔子我们用一个笼子,这个笼子是数据各个维度做的,如果这个数据维度多,笼子足够密,这个兔子就跑不出去,就是真理事实就在笼子里,不用再去因果关系认证。这是大数据整个思路。这产生一个问题高维数据分析,以前二维说跑就跑,现在千维万维,我把兔子放笼子中间。我不用因果关系论,只要在大数据笼住就这么回事。
这样简单的想法对我们IT整个造成非常大困惑,存储、计算能力还有各种各样标准,大家都理解。大数据核心是数据集成。大数据大不重要,而是维度最重要。维度要足够多,维度数据有一定密集程度,大数据未来考虑,不是收集几亿数据,要有几千维度几万维度,每个维度有1千万数据可以是大数据,对于我们计算存储管理都产生非常大问题。大数据技术是什么?所谓大数据技术就是解决这些东西。
大数据系统怎么做?我刚才讲必须建大数据基础架构。大数据应用,我从应用角度看,一定要天时地利人和三方面,比如人这个方面,人是最容易忽视的,我们建很多大数据,应用核心是集成,是跨界集成,也就是说以前一个公安人员可能对公安内部了解,但是对医疗方面的标准懂不懂,如果不懂很可能大数据不这么完美,因为抓兔子要很多维度,这些维度笼子栅栏一定是全人类的维度,一定要有这么一个人,这个人高度很高,我们现在企业里做数据分析有这个问题,只为部门服务,为企业整体服务的很少,有自己数据分析人员服务。这样产生不了大数据应用,现在企业应用要有这种人,从企业角度和高度思考问题。
第二对我企业各个部门的运作情况总结,不能对研发的,对市场进行了解,对制造系统没有什么了解,这样搞不了大数据。所以人很重要。最重要是跨界,还有从某一个高度去思考问题这样的角度,这两个特征比较合适。大数据最大拦路虎是数据治理,大数据是集成,由于化学反应放到一起产生爆炸性,敏感度增加,怎么脱敏,大数据各种各样标准,治理这是很大问题。还有大数据最关键支撑,工具和方法,工具和方法加一起是大数据基础架构。 (编辑:ASP站长网) |