设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 文件
当前位置: 首页 > 大数据 > 正文

大数据在保险行业的应用(2)

发布时间:2018-12-18 17:13 所属栏目:125 来源:公众账号
导读:* 插码:我们在浏览网页,例如京东或者淘宝时,一些操作行为、习惯会被记录下来,这些记录的工具一般是网页中的一段代码,这些预先写好的代码被植入已有的系统后,就会具有相应的功能,这个被称为插码系统。 另一类

* 插码:我们在浏览网页,例如京东或者淘宝时,一些操作行为、习惯会被记录下来,这些记录的工具一般是网页中的一段代码,这些预先写好的代码被植入已有的系统后,就会具有相应的功能,这个被称为“插码系统”。

另一类的数据采集可以算作是 数据准备 ,从不同的来源,包括从业务数据库里,数据仓库里,或者直接从业务系统里获取数据,把这些数据集成起来提供给下游的数据消费者使用——对于数据工程师来说,更通俗的说法是“提数服务”。

这类采集简单的做法是直接写sql,复杂一些的是开发很多ETL的,采集、分析、存储作为一个整体过程。

准备好的数据,放在目标数据库里,或者保存为离线文件,下发给需要使用这些数据的人或系统。

数据分析中的数据准备和应用系统开发中的数据集成不是一个概念,常用的数据集成软件,例如golden gate,并不适用。因为这里的数据集成是数据工程师做,给下游数据工程师使用,而不是部署一个数据集成的系统。

*数据仓库:和普通数据一样的结构化数据,把业务线重新组织后重新放在另一个结构化数据库里面,规整好的新数据库即为数据仓库。

还有一类采集技术是 把非结构化的数据转化成结构化数据 。

例如文字识别,图像识别,语音和自然语言识别。这些技术相对来说比较独立,一般是在一个项目中如果需要的话作为一个单独的模块引入或者开发。

举个例子,投保单的电子化,大家觉得一张纸质的投保单是怎么录入系统的?

我们在银行里也有很多类似的经历,手动填写很多表格,怎么电子化的呢?手动写的字那么不清楚,怎么识别出来的呢?智能识别手写内容?——大家想多了,保存影印件,然后人工复核,甚至是人工录单,有专门的外包公司会来做这些工作。

从这里可能看出来,像保险公司这类的传统企业,很难对核心系统做大的改动,新技术往往都是在外围进行应用。

数据的存储技术

传统的持久化存储技术,有传统的数据库,数据仓库,nosql数据库,在数据分析中都要用到。这一系列的技术比较成熟,应用场景也很稳定。

还有一种之前不太常用,现在比较常用的是 缓存技术 。

传统的报表系统的实现方式是什么样的呢?最底层是基础数据,在基础数据的基础上加工为很多指标,将不同的指标拉到一个表里,生成报表。

当指标不止一层的时候,一些指标是另一些指标加工而来的,从最终的报表到基础数据之间隔着好几层指标,每次算报表的时候都层层往下去算指标,开销太大了,所以中间很多相对稳定的指标就放在缓存里,以提供给上游的指标使用。

数据的分析技术

分析技术是大头,也是现在公司里耗费人力最多的地方,业务需求最集中的地方。先说说传统的,现在已有的分析方式是什么样呢?

大家第一反应肯定是机器学习,但目前企业里,主要的还是写SQL,写一个不够就拼好几个SQL,不行就写ETL。

这种模式对BI需求来说,足够好了了已经,如果能有什么改进的话,引入流失计算,用规则引擎替换掉SQL等,到不了需要使用机器学习的程度。

传统的数据分析目的就一个,报表,清单报表,统计报表。

使用规则引擎来做分析,也就是说来定义报表,解决的是数据分析逻辑便于开发,便于理解,便于复用。

看起来比SQL更加友好,完全不懂技术的业务人员也可以操作。但是他解决的只是易用性的问题,功能和传统SQL比起来不会更好,甚至不如SQL。

另外一方面对现有分析技术的改进,是引入 流式处理的模式 ,处理的不是静态保存起来的结构化数据,而是处理的在一个数据流中的数据。

比如使用Storm,通过编写不同的处理程序来实时进行数据分析。例如前面说的爬虫系统,从互联网上抓取的文章,就是实时地通过Storm打的标签,然后再放到ES库里的。

最后,还是要涉及到机器学习。 虽然前面说现在的业务模式中并不依赖机器学习,但是在对新的领域进行分析的时候,传统的方式是无法胜任的,还是得求助于新的分析模型,这个时候需要使用机器学习技术。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读