大数据在保险行业的应用
负责数据智能部数据产品的规划设计和系统架构。 在保险行业业务数据的基础上,研究如何将数据转化为服务,让数据为企业的业务服务,为企业的客户服务,同时为整个行业以及为社会服务。 曾在Sun Microsystems和Oracle公司任高级研发工程师、高级技术顾问工作。对计算机基础架构、系统软件以及云计算有丰富的经验。 大数据这个话题目前非常热门,一方面是因为有足够旺盛的需求,各个领域都觉得能够从大数据上获利,比如扩展出新的业务形态,改进现有的业务流程等等。 首先,因为信息化已经做了很多年了,人人手里都有很多的数据。 原来这些数据是用来为应用系统服务的,主要用于实现业务流程,新的技术手段让这些数据有了很高的价值,所以大量的需求产生了,而且数据越多需求越旺盛。 其次,大数据技术在很多领域已经有了足够多的应用,这些应用也收到了正向的效果。所以大家不仅仅是从理论上了解大数据的好处,而且看到需多实例。 老话说,不见兔子不撒鹰,现在兔子满地跑,而且看见别人家的老鹰已经捉到不少兔子了,所以整个圈子里老鹰捉兔子就火了。 再者,大数据能变得热门起来,也是因为技术手段比较成熟了,技术的应用模式也摸索出不少来。 打个比方,就像乐高玩具一样,零件开发得很成熟了,各种尺寸大小形状的零件都很规范,也能方便的买到,同时各种图纸也成熟起来,男孩儿的飞机汽车,女孩儿的过家家场景,不同的小朋友根据自己的喜好,总能找到满意的题材很轻松地搭建喜欢的模型。 所以总体来说,大数据这个事情,理论上看来有用;有人做过,管用;做的方法有指导有线路图,能做。 今天我们就来说说大数据在保险行业的应用。 保险这个行业 保险行业存在已经很长时间了,一直以来并不依赖大数据分析技术,业务一直运转的很好。之前就有数据分析,而且业务一直也使用数据分析,各种报表都很完善,BI系统、数据库、数据集市、数据仓库管理了大量的数据,这些数据都是业务数据。 保险行业的关键数据有: 承保、保险、理赔 数据。 承保是新建保单,投保的时候填写的,投保人和保险公司签订的合同。里面有投保人信息被保人信息,保障内容,赔付条款,免责条款,等等。保全和理赔是修改保单,变更保单的内容,或者拿着保单去理赔。 这些数据看起来就是记录保单整个生命周期内的信息的,保证了保险销售和保险服务能够依据保单运转起来。 数据还是这些数据,但是咱们换个角度看,数据会不一样。这些保单相关的数据,也可以说全是用户数据,用来记录用户的个人信息和个人行为信息的数据。 一张保单涉及到好几个人,投保人,被保人,涉及到他们之间的关系,直系亲属,公司同事。保全和理赔更是涉及到用户的数据,用户信息通过保全进行更新,理赔过程中有用户出险原因等信息。 光是听到有这么多的数据,数据分析科学家们一定就很开心了。 还有更好的事儿,就是这些数据都非常真实,承保时有保险代理人来搜集验证数据,保全有业务人员来搜集验证数据,赔付时有核保人员来搜集验证数据。 光说全国保险代理人,有800万左右。由他们产生出来的较高质量真实数据,不拿来做大数据分析是不是很可惜? 不过针对这些大量优质数据,保险行业里也一直都有数据分析,不但有,而且非常完善,但是分析的方式并不是以大数据的方式。那么现在的大数据分析技术能给传统的业务带来哪些改变呢? 这就要从保险业务入手了。 保险行业数据的特征 大家都知道,所谓大数据,就是具备4V(Volume,Varity,Velocity,和Value)特征的数据。下面我们就对照这4V来看看保险数据。 规模性(Volume) 保险行业数据的规模很大,首先是交易数据本身的规模就很大。 2017年全年,寿险新增保单1.1亿件,每天30万件,每小时1.3万件,每秒3.5件。这只是寿险,健康险,意外险,财产险这些保单数量还要比寿险大很多。 寿险的保单大,意外险财产险的保单金额小,比如周末旅游买个短期意外险,几十块钱。乘坐交通工具的附加险,几块钱。所以保单数据时刻都在大量产生。 保单中的数据不仅仅限于交易数据本身,不仅仅是办理业务填写的各种单据里的数据。还有所有用户行为产生的数据,比如去一趟门店,什么时候去的,和保险代理人进行一次访谈,谈话中聊到的个人社会关系信息,等等等等。 所以这第一个V毫无疑问,数据规模足够大。不过话说回来,我们知道,大数据的定义是要大到原有系统不能处理,那保险的业务数据已经被很好处理了,是不是不算大数据,不怎么需要大数据技术呢? 不是的,原有的业务系统只是产生了数据,实现了业务流程的信息化,对业务本身进行了简单的统计分析,并没有分析数据本身。 分析的是业务,不是数据,这里的重要区别是,数据的可分析维度要比业务的可分析维度大得多,非常可以利用大数据技术进行分析。 多样性(Varity) 业务数据都是结构化的数据,都是要录入到业务系统里的,使用关系数据库保存的结构化数据。 对于这些数据来说,不存在原有系统处理不了,必须要依赖大数据系统的问题,因为本来就是原有的业务系统里产生的,在数据仓库里整理好的,在BI系统里用来分析的数据。 但是,在业务数据之外,有很多在业务过程中产生的附加数据,比如电话销售保险时的语音记录,比如定损时的定损员拍摄的现场照片或视频,这些数据在业务中产生后,也就是产生了而已,,没有后续被利用起来进行分析。 比如语音记录,保存下来的作用就只是存档而已,遇到投诉的时候,调出来查一查,没有别的用处了。不对这些数据进行分析,非常可惜。 传统的,线下的业务,更能产生多样性的数据,对于大数据科学家来说是个大宝藏。 所以这第二个V,多样性的数据,在传统的保险行业中也是一直存在的,很丰富,图像音频视频都有,还都不少。 高速性(Velocity) 前面咱们已经讨论过产生保单的频率,但说寿险是每秒3.5个保单,这个数字看起来还不算产生数据的速度快。 咱们看电话销售,粗略估计一下,一个公司寿险电销行业的销售如果有3万,每天要打8小时电话,按照3-5分钟产生1M音频文件算,每秒钟大约300M的音频。这些音频数据如果不能在产生的时候就实时处理掉,而是积累起来,一天就是24T,后期再想从这些数据里去挖掘价值,就特别困难了。 从某种角度来说,Velocity和Volume有相同的地方,互相补偿,高速的数据处理不了就会积攒成大量的数据。 不过这只是 Velocity( 高速性)的一个方面而已,这个V的另一个方面是数据的实时性,就是说如果数据当时不处理,放时间长了就渐渐没有价值了。 举个例子,保险是洗钱的渠道之一,往往会有人通过购买保单来洗钱,如果在保单生成的时刻就能判断出投保人的洗钱风险,是价值最高的。 价值性(Value) 大量的客户信息,不但有价值,而且都有价值到了涉及道德问题的程度了。 最近腾讯的马总在说数据中台的事情,说腾讯不是不能做,而是做数据整合是很敏感很危险的事情。 所以我们在挖掘数据价值的时候,主要担心的不是挖掘不出价值来,而是怎么能安全地挖掘价值,在保护用户隐私的前提下来挖掘价值。 一般电商会记录用户的购物习惯,上网行为习惯,而保险公司记录的是,例如用户生病的记录,这个就敏感得多了。 电商上的客户大部分都是个人信息,而保险公司记录了很多用户生活中的社交关系信息,家庭人员关系,投保被保人关系,这就更加敏感了。 大数据技术的应用 面对这么多数据,用哪些技术手段去处理呢?这其实是三个问题: 1.已经用了哪些?讲这个话题的时候也不怕大家笑话,其实保险行业里已经用了的大数据分析技术和传统BI比起来还是很少的。 2.哪些可以用?其实是都可以用,看具体在哪些场景里用了,具体的场景咱们后面来聊。 3.在可以用的技术中,打算用哪些?实施策略是什么,先做哪些再做哪些?哪些是最容易落地又最容易得到收益的?我们要权衡清楚。 数据的 采集技术 数据采集技术最大的作用是丰富了数据来来源,和大数据分析技术关系不大,但是往往是和大数据分析平台集成在一块儿,形成特定场景的整体解决方案。 一类采集是 抓取新的数据 ,比如说抓取日志数据,使用爬虫抓取网页数据,使用插码技术抓取用户行为数据。 在保险行业里,爬虫和插码都有不少运用。爬虫的一个实例是用来做舆情分析,抓取各种新闻类网站的文章,添加和自己相关的各种标签,然后放到一个存储里,提供检索服务。 这是个典型的架构,多个爬虫进程抓取数据,扔到消息队列,使用流处理技术,storm从消息队列中实时取数,分析数据,打标签,然后放到ES库里。这里面用到了kafka,storm,elastic search。 严格来说,在这个例子里只有爬虫抓取网页是采集,后面的都是分析和存储了,不过在ES保存的数据对于它的消费者来说,也只算是爬虫采集到的数据而已。 这些采集的业务和技术,和大数据的哪几个V有关呢?我觉得主要是对大量数据的快速处理,在采集的同时就做处理,避免积累大量的非结构化或少结构化的数据。 (编辑:ASP站长网) |