设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 服务器 > 系统 > 正文

友盟:如何在一天之内收集3亿条移动数据

发布时间:2017-01-02 10:28 所属栏目:52 来源:刘策
导读:2014年9月17日-19日,2014 中国系统架构师大会(SACC 2014)在北京五洲皇冠国际酒店盛大开幕。作为中国规模最大的架构师豪门盛会,本届中国系统架构师大会以“发现架构之美”为主题,探讨最具前瞻性的行业趋势与技术热点,分享架构在企业中的最佳实践,共同领略

  【现场报道】2014年9月17日-19日,2014 中国系统架构师大会(SACC 2014)在北京五洲皇冠国际酒店盛大开幕。作为中国规模最大的架构师豪门盛会,本届中国系统架构师大会以“发现架构之美”为主题,探讨最具前瞻性的行业趋势与技术热点,分享架构在企业中的最佳实践,共同领略架构之美。

  据了解,大会邀请了来自百度、腾讯、阿里巴巴、京东等知名互联网企业与传统行业的资深架构师,分享云架构实践与解析、大数据架构及应用、自动化运维、高性能高可用网络架构设计、互联网存储架构优化、构建全新数据中心、互联网金融及风险防范、移动平台架构设计、高效电商系统构建、全栈工程师实践等主题的最新技术实践。

友盟:如何在一天之内收集3亿条移动数据
▲友盟数据平台高级架构师章炎

  友盟数据平台高级架构师章炎的演讲是《如何在一天之内收集3亿移动设备的数据》,友盟诞生于2010年4月,随着移动互联网的蓬勃发展,友盟也从一个只有几个人的小公司,成长成为中国移动互联网的一个知名品牌。

  根据能否追踪到单个独立的设备, 可以将一个统计系统分为可区分统计(Discriminative Statistics)和不可区分统计(Non-Discriminative Statistics)。友盟提供的是可区分统计,也就是会利用一个身份标识符(Unique ID,以后简称 ID)长期追踪单个设备的数据。作为对比,早期的网站统计都是不可区分统计,例如页面访问次数,独立 IP 数等;现代的网站统计都是基于 Cookie 或硬件指纹的可区分统计。由于智能设备提供了足够多的硬件指纹和计算能力,友盟从第一天开始就专注于可区分统计。

友盟:如何在一天之内收集3亿条移动数据

  大多数移动统计的 ID 都是通过系统 ID 生成的,包括但不限于 IMEI、MAC、Android ID。最著名的 ID 莫过于 UDID, 迫于隐私的压力,苹果最终废弃了 UDID 和 MAC 地址。大多数网站统计都是基于 Cookie的,因此是暂态ID(Temporal ID)。OpenUDID 就是一个典型的暂态ID。

  当一个ID仅存在冲突的时候,利用这个ID统计的DAU和安装都会被低估,但是有可能会高估留存。但是这些影响都是温和的,例如5% 的ID冲突仅仅会导致DAU至多被低估 5%,而对留存的影响几乎可以忽略。

友盟:如何在一天之内收集3亿条移动数据

  当一个ID仅存在漂移的时候,利用这个ID统计的DAU和安装都会被高估,同时会影响留存。当漂移较大的时候,对统计指标的影响是剧烈的。例如,一个每日漂移为5%的ID,可能会造成DAU被高估2%,但是会每天造成5%的虚假安装(这是因为漂移会影响所有用户,包括不活跃用户),同时这些虚假安装的留存在短期内偏高,但是长期留存则偏低(短期内没有漂移的时候就会偏高,时间长了,漂移了就会偏低)。任何类Cookie的ID都会有类似的性质,因此传统的网站统计正在全面转向更为可靠的设备指纹。

友盟:如何在一天之内收集3亿条移动数据

  当一个ID既存在冲突又存在漂移的时候,利用这个ID统计出来的DAU和安装是完全不可靠的。以MAC地址为例,存在漂移的这部分设备的MAC地址会频繁变化,因此会制造大量的虚假安装,同时留存率非常低。对于用户量不大的应用而言,选择存在这类ID的后果是灾难性的。

  综上所述,当ID的漂移和冲突足够小的时候,他们对可区分统计的影响都是可以忽略的。当这些误差不可忽略的时候,ID的冲突造成的影响是温和的,而ID的漂移则会严重干扰安装和留存统计。

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读