大数据生态圈到底是一个什么概念？(2)

发布时间：2018-10-12 14:21 所属栏目：125 来源：51CTO

导读：这时候，另一个工具即将登场Streaming计算模型。这种模型通常被称为流计算模型，使用最多的平台式Storm。这种模型会在数据开始搜集的时候进行计算，而不是在搜集完成后你每获得一个数据都会加入到实时计算中成为最

这时候，另一个工具即将登场——Streaming计算模型。这种模型通常被称为流计算模型，使用最多的平台式Storm。这种模型会在数据开始搜集的时候进行计算，而不是在搜集完成后——你每获得一个数据都会加入到实时计算中成为最终成果的一份子。这种方式处理的数据基本不会存在延迟问题。

但它并不是尽善尽美。在使用流计算之前，我们必须预先找到统计的核心，因为一段数据经过处理就会放在一边——正如流过的河水无法倒回一样——未能提前找到统计核心的时候数据就被浪费掉了。这也是流计算无法完全替代我们前文讲过的工具的原因。

另一个比较独立的工具是KV Store，类似于Cassandra，HBase，MongoDB等等非常非常多的其他东西。他是什么意思呢，假如你有一堆键值，你就能通过某种方式快速获得键值背后的一大堆数据。就好像你去银行插入银行卡就能取到钱一样。

假如你特立独行，使用MapReduce完成也没有任何问题，但是由此带来的不便就是扫描数据库的时间会很长。如果我们采用了KV Store，这种专门为了键值存取而设定的工具，那这个速度就会非常快。这个工具的核心就是快，其他的事情他一概不管，就是要快。

除此之外，还有一些更特制的系统/组件，比如Mahout是分布式机器学习库，Protobuf是数据交换的编码和库，ZooKeeper是高一致性的分布存取协同系统，等等。

当你拿到这么多工具(甚至多到连很多东西的名字都写不熟练)之后，你把他们拼装在一起，如果没有一个完美的安排大家就会互相打架，造成效率低下，所以这个时候还要引入一个调度系统，专门给大家安排任务、安排时间，使系统能够良好运转。