大数据架构的分析应用(4)
Figure 1-8 展示了这些不同应用如何在该架构组织起来的。 Figure 1-8. Architecture overview 日志摄取 日志摄取应用被用作消费应用日志例如web 访问日志. 为了简化使用场景,提供一个web访问日志,模拟访客浏览产品目录,这些日志代表了点击流日志,既用作长时处理也用作实时推荐。架构有两个选项:第一个是以Flume来传输日志;第二个是以LEK 来创建访问分析。 Figure 1-9 展示了ELK 和Flume是如何处理日志的. Figure 1-9. Ingestion application 我们在架构中使用ELK ,因为LEK的三个产品无缝集成,能够比使用Flume给我们更多的价值 。 机器学习 机器学习应用接收数据流,构建推荐引擎。这一应用使用一个基本的算法来基于Spark MLlib 介绍 机器学习的概念。 Figure 1-10 展示了该机器学习应用如何使用Kafka 接收数据,然后发送给Spark 处理,最后在ElasticSearch 建立索引为将来使用做准备。 Figure 1-10. Machine learning 处理引擎 处理引擎是该架构的心脏; 它接收各种源的数据,代理合适模型的处理。 Figure 1-11 展示了由Hive组成的处理引擎如何接收数据,以及Spark的实时/准实时处理。 Figure 1-11. Processing engine 这里使用Kafka 与 Logstash结合把数据分发给ElasticSearch. Spark位于 Hadoop 集群的顶端, 但不说必须的。为了简化起见,本书不建立 Hadoop集群,而是以standalone模式运行Spark。 相关阅读: 大数据学习路线(自己制定,从零开始) 大数据干货 | 论Spark高手是怎样炼成的 如何写一个更好的Python函数? (编辑:ASP站长网) |