大数据一体机融入数据仓库架构的解决技巧
使用高级分析工具来对业务数据进行分析是很常见的,特别是对于有很多面向客户系统的大型企业。随着我们可以访问的数据越来越多,企业已经开始将大数据存储到企业数据仓库(EDW)中。然而,这些大数据部署带来一系列的问题,它要求数据库管理员(DBA)和相关支持人员对数据仓库架构进行重新设计。
大数据时代
在当今的商业化的IT系统中,我们会收集存储越来越大量的数据。同时要能够获取、分析这些数据,大多数企业开始转向专有硬件、软件解决方案。这也是一体化设备开始流行的一个原因,针对特定应用场景的硬件数据存储与业务分析软件的耦合度越来越高。
比如IBM的DB2 Analytics Accelerator(IDAA),即IBM DB2分析加速器。
这样的解决方案通常十分昂贵。大数据存储需要扩展磁盘和内存阵列,高性能访问则需要大量CPU资源加上复杂的数据访问以允许多个进程并行访问数据集的各个部分。
在实现这样一个解决方案之前,企业需要确认并解决以下问题。
基础设施需求
就拿IDAA来举例,它是一个软硬件解决方案的混合产物。其硬件包括一个大型磁盘存储阵列并结合可进行大规模并行处理的软件。技术支持人员要指定哪些DB2表要在设备中加以复制和存储,及其刷新机制。然后软件会与DB2数据库引擎相连接,使得查询可以访问设备中的表备份,这可以提供更快的访问速度。
除了电力和冷却这些标准问题,在部署这样一个设备之前,IT人员必须考虑多个架构方面的问题。
IDAA只会存储生产系统的数据吗?还是说也可以存储测试数据?换句话说,DBA和业务分析人员要怎样开发并测试他们的数据分析查询。
究竟需要多少设备呢?例如,如果在IDAA上正在执行的数据分析是公司关键任务,那么是不是需要额外的设备进行灾备?
虽然IDAA可以存储大量数据,但只能对访问设备中存储数据的查询进行提速。那么系统中要存储哪些表呢?
特定的用例
超快的数据分析听上去不错,但很多企业尚没有为分析开发特定的查询或系统。这就导致了很多时间花费在数据加载和查询测试上,而没有产生切实的成果。
合理成本会迅速转化为效益吗?
大多数业务数据分析包括以下一系列步骤:
1.业务分析人员审查报表,查询以及其他数据并形成基于他们分析的逻辑问题;
2.然后开发一个或多个查询用来分析大型数据存储;
3.执行查询;
4.分析人员审查并阐释结果。
一体化的解决方案可以显着减少步骤3的执行时间。但是,其他步骤依然存在。例如,假设以上的每个步骤要耗费一小时,那么总的消耗时间就是四小时。部署一体机可能会将查询执行时间减少为几分钟。虽然这是一个非常显着的时间降低,但是总时间也只缩减为三个小时多一点。
总之,减少查询执行时间肯定是有好处的,但是可能不像之前所认为的那样效果明显。
业务数据“消费”群体
大多数业务数据“消费者”可分为以下三类:
1.技术用户直接运行查询。这些用户会使用SQL针对数据表创建查询,然后使用一个在线SQL执行工具来运行查询并在原始数据表格中生成结果,这样他们便可以直接观察或是下载到一个电子表格以供进一步分析之用。这些用户熟悉这些数据表,拥有SQL相关知识,并且会用简单工具来提炼结果。
2.复杂报表分析人员。这些消费者通常会使用一个复杂的报表工具来显示数据的一个图形数据模型。然后他们会通过拖拽表和字段到一个报表窗口来操纵此模型。此工具接着会创建基于模型和其他参数的适当SQL语句,执行此查询,并显示结果。这些用户熟悉数据,通常不具备SQL专长,而且需要一些高级查询和统计报告的技术。
3.数据集市的消费者。这些用户拥有他们自己的高度专业化的业务数据分析软件。他们会直接从源头提取业务数据并将之存储在一个本地服务器上。然后他们会使用专门的软件来分析数据 任何一个大数据解决方案都必须将这些不同的群体需求考虑进来。
[page] 部署过程中的问题
在部署一体机的过程中,IT人员通常会遇到一些常见问题。
相互矛盾的问题
如果我们尚未对其进行分析那么我们要存储些什么呢?如果我们还没有数据那么我们要分析什么呢?业务并不会完整的理解什么数据会是可用的,并且IT支持人员并不了解在一个大数据解决方案中什么样的业务数据对于整个部署来说是最为有用的。
这两个问题通常是缺乏特定用例或是IT与业务部门间缺乏交流所导致。
批量数据加载问题
大多数一体机支持大数据解决方案并能承受超大量的数据。最常见的问题之一就是究竟要花多长时间将那些数据加载到一体机中?
一旦数据被加载,其他批量数据问题就出现了:我们要如何才能保持数据是最新的?我们要如何清除大量过期和无用数据?
(编辑:ASP站长网) |