设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 服务器 > 系统 > 正文

SACC2013:初创IT技术架构及实践专场(4)

发布时间:2017-01-02 10:17 所属栏目:52 来源:陶然
导读:刁士涵:美团数据仓库的演进 2010年3月4日成立的团购网站。美团网:每天团购一次,为消费者发现最值得信赖的商家,让消费者享受超低折扣的优质服务。为商家找到最合适的消费者,给商家提供最大收益的互联网推广,为

  刁士涵:美团数据仓库的演进

美团数据仓库的演进

  2010年3月4日成立的团购网站。美团网:每天团购一次,为消费者发现最值得信赖的商家,让消费者享受超低折扣的优质服务。为商家找到最合适的消费者,给商家提供最大收益的互联网推广,为消费者能享受到最全面的团购资讯。美团网致力于做中国团购的领军企业,服务好消费者,服务好商家,这是美团的使命。

  美团是一家数据驱动公司,每天运行job20000+;每天新增数百GB原始数据;1000多个ETL流程;十几条业务线,2000多个业务指标;几十个专职数据分析与研究人员。数据仓库是一套完整的软件环境,包括数据抽取、存储、计算、查询、展示,以及管理这些过程的工具。

  美团团购客户端是美团网精心打造提供浏览、支付、消费凭借等一体化服务的的移动应用程序。美团团购客户端浏览顺畅、操作简单,并且针对移动终端做了一系列专享功能和体验。美团团购Android版是美团网精心打造的手机客户端,简单顺畅的操作体验让手机用户随时随地享受便捷的。

  演进过程:Pre数据仓库→引入ETL→构建完整的数据仓库→开放和协作

美团数据仓库的演进

  Pre数据仓库:

  工程师写一段PHP或者Shell统计脚本

  自己连接业务DB,提取数据

  在内存中完成统计计算

  将结果写入报表DB

  写一个PHP页面作为报表给需求方

  很多重复劳动和代码中间数据缺失,中间结果不能共享程序语言五花八门,方法各异很难管理清洗和转换没有统一方法,容易出错不同数据源的数据很难综合使用。

  引入ETL:使用独立DB,集中数据,复用中间结果;以ETL作为数据处理的核心,简化操作用数据表示逻辑;规范数据命名和组织方式;进入数据仓库时完成清洗;独立出日志收集系统。

  针对问题开发工具

  流程注册、管理、查看工具

  流程依赖关系解析,画出依赖关系图

  开发调度系统,根据关系图调度ETL执行

  抽象报表工具,屏蔽报表页面开发

  报表=SQL+配置

  建立数据字典,解释概念和指标计算过程

  美团的高速发

  展对数据的需求也高速发展,数据提取和分析需求增长,数据分析人员的增加,数据分析复杂度增加,数据团队疲于应付,大量重复性工作,迫切需要需求方自助获取数据并分析。

美团数据仓库的演进
▲专题地址:2013中国系统架构师大会

上一页1234下一页查看全文 内容导航
  • 第1页:解读知乎网技术体系
  • 第2页:又拍云存储自建CDN技术探秘
  • 第3页:GIT分布式代码版本管理时代
  • 第4页:美团数据仓库的演进

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读