为啥云原生数据湖值得关注
发布时间:2022-06-25 12:48 所属栏目:125 来源:互联网
导读:最近几年,数据湖正在被越来越多人提起,尽管各方对数据湖的定义并不统一,但这不妨碍企业纷纷下水实践,比如亚马逊、阿里、腾讯、华为等,都在探索建设数据湖。为何众多企业在数据湖是什么上还没有达成共识的情况下,就开始着手进军数据湖领域呢?一个可能
最近几年,"数据湖"正在被越来越多人提起,尽管各方对数据湖的定义并不统一,但这不妨碍企业纷纷下水实践,比如亚马逊、阿里、腾讯、华为等,都在探索建设数据湖。为何众多企业在"数据湖是什么"上还没有达成共识的情况下,就开始着手进军数据湖领域呢?一个可能的原因是,数据湖将代表大数据和AI时代融合存储和计算的全新体系,特别是数据湖和云原生结合以后,这一趋势更加明显。要想理解这一点,还要从数据湖的发展说起。 数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)。于是,早期业界和用户多把数据湖定义为一个集中式的储存原始格式数据的系统,可存储任意规模的结构化、半结构化、非结构化及二进制的数据。 随着大数据技术的融合发展,数据湖的边界不断扩展,内涵不断变化,逐步演变成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。 这就让数据湖与数据仓库有了很大的不同。 数据仓库诞生于数据库时代,它的核心思路是把数据库众多数据进行一定格式转换后,定时地复制到另一个库里做列式存储,从而满足企业查询和数据分析的需求。 随着云原生时代到来,当数据湖以云原生(当提到云原生时,很多人的第一反应是Serverless、容器化这些概念,其实近些年来,云原生的概念逐步泛化,涵盖了很多产品服务,从某种程度上讲,云原生是一种分布式系统的设计范式,这种范式具备弹性、安全、稳定等特征)的方式部署时,其强大的性能优势可以被最大化释放。 一方面,数据湖上云后可以享受云本身带来的性能提升,如高可用(相较于自建IDC,云环境拥有更多的资源冗余,一节点发生故障可以无缝切换到其他节点,确保业务的连续性)、弹性(云计算具备动态扩充性与可负担性,可以解决海量业务带来的吞吐和IO性能瓶颈,满足大数据分析所需资源的庞大规模与突发性质的需求)、敏捷(云让企业从重复、复杂的底层IT工作中释放出来,同时其模块化、松耦合的敏捷架构有利于数据产品的快速迭代、部署、运维与创新)。 另一方面,数据湖在云原生的环境中可以做更多性能优化的工作,如丰富的上下文带来的分析加速,流失处理和批式处理的融合带来的实时数据价值释放,一站式数据管理方案带来的安全和质量改善等。这就让企业得以有效利用公有云的基础设施,数据湖平台也有了更多的技术选择,比如云上纯托管的存储系统逐步取代HDFS,成为数据湖的存储基础设施,并且引擎丰富度也不断扩展。总之,云特有的"池化、弹性、敏捷"等特性,让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。 展望云原生数据湖的未来 如果对云原生数据湖做一个概括的话,云原生数据湖是大数据计算平台借助云计算理论发展出来的新技术产品,其支持异构数据灵活存储、计算资源弹性伸缩,能够帮助企业应对当前数据结构愈发复杂、数据处理时效性要求不断变高的业务环境。 也就是说,云原生数据湖只是一种架构原理,其具体实现的方式多种多样,基于EMR可以做云原生数据湖,基于Flink也可以做云原生数据湖。 不过需要说明的是,虽然中国数据湖技术正在逐年发展与突破,公有云厂商及其他厂商纷纷在尝试,但目前在数据感知收集及归类清洗方面存在壁垒和难度,数据湖建模经验不足。总的来说,我国数据湖市场整体发展处于初期阶段,技术路线不统一,业内产品能力良莠不齐。 从应用现状来看,数据湖在国内的落地还存在许多痛点。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读