设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 数据 手机 公司
当前位置: 首页 > 服务器 > 安全 > 正文

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子(3)

发布时间:2017-09-08 06:17 所属栏目:53 来源:雷锋网
导读:所以我们会想到,用更多深度学习的办法。下面我列了一个我们看到的方法,常规的像异常检测,消息的识别,以及比如像用的最多的推荐,会在不同的维度上用到不同的算法,像异常识别这里,机器学到更多的,像有监督无

所以我们会想到,用更多深度学习的办法。下面我列了一个我们看到的方法,常规的像异常检测,消息的识别,以及比如像用的最多的推荐,会在不同的维度上用到不同的算法,像异常识别这里,机器学到更多的,像有监督无监督的办法都会去利用,在误差和漏洞上面都会比较高,最终输出的无非是分类跟解释,但是由于所有多样性的变化,导致整体的效果,单独应用效果并不好,垃圾箱的检测也是一样的,主要是基于有监督学习的算法,有监督学习的算法准确率高,但是覆盖率依然很差,最终分类的结果在多样化的情况下,整体的效果并不是特别好。最底下那个是我列出来的大概参考,这不是安全里面更多的内容,主要是用在推荐的场景,主要也是有监督的学习算法。所以基于这些坑,我们就想到,最终要解决安全对抗和黑产多样的手段化,不能依赖于单纯的算法,而是要多个维度解决框架的问题,需要基于腾讯现在的海量用户。

现在腾讯的社交网络每个月有 8 亿左右的月活动数据,我们需要依据这个庞大的数据集,去挖掘多维度的数据和模型来进行学习。所以基于刚刚的这个思路,我们把数据的模型抽象成了四个大块。 

第一大块是社交的大数据,我们会把社交的这种社交关系、内容,以及业务各种正常的请求归到数据维度上。

第二块是在样品和标签上面,因为刚刚讲过要有机器学习,所以一定要样品跟标签。

第三块来讲,机器学习里大家都会提到一个场景,有监督学习、无监督学习或叫半监督学习,这三种不同场景学习的时候,没有哪一种是可以一成不变的,换句话说,一定是多种去结合的,所以所有的场景当中,我们一定是需要这种标签和样本来进行汇总的。这个样本和标签,我们会在中间把样本和标签纳入到无监督和监督学习当中去,同时也会有算法。

第四块是根据特征,包括功能画像、批量团伙以及历史黑数据,最后根据模型进行精准预测和主动预警。我这里提了一个主要的作用,框架,最终我们把这个框架落地到三个角度,账号、内容以及风险管理,在这三个维度上面去进行落地。

我们首先讲账号,账号是万恶之源,所有一切的问题其实都是来自于账号,因为如果没有登陆账号,其实能做的无非就是传统的网络安全中间的内容,包括有漏洞,DDoS攻击,一旦有账号,里面能做的或者能获益的点就更多了。

在主机、终端、业务网络等多个维度上,因为有账号所以有更多可利用的空间,会发展出入侵、木马、恶意注册登陆等等,都是一些主要的入口。单独的这种模型已经无法识别里面的恶意,因为恶意的操控人五花八门,他的目的各异,也没有较强的规律跟统计的特性,最终是需要通过把整个恶意行为纳入监测系统,形成各种恶意的感知和模型样本进行预防和防控。 

我们基于账号设计了一个框架,这是一个批量的恶意注册账号的识别模型,这个核心主要是通过全量社交网络的分析,我们设计了一个叫SybiRank的算法,主要是依据图挖掘合成的,核心是进行用户分类,对不同的类别进行打分,最后输出一个静态的种子用户,通过在流水当中机器进行学习,进行自动的分类和识别,来识别出恶意、可疑和温和的用户,最终根据不同的数据来进行应用。

这种模式其实结合无监督、有监督跟半监督结成的闭环,整个流程中比较突出的挑战不是来自于算法本身的设计,而是说算法要在海量的数据当中如何跑。

我刚刚提到目前仅以QQ为例,每个月有 8 亿左右的月活账号,这会带来整个算法上非常大的挑战。因为有这 8 亿数据,所以我们会设计出大的图挖掘的系统,我们根据这个算法设计完成以后,大概形成一个图,有几十亿个顶点,大概有数百亿条双算编,一天有几千亿次的规模,仅以我们单一的一个业务场景为例,大概每天上来,由于两个人社交关系之间的相似性,我们一个单一入口上来的场景,大概一天会匹配到超过 100 亿条的双向边,目前一天有几亿,这会导致传统的平台很难处理这样的模型。

这也是现在非常大的一个门槛,正是由于这种社交关系链实体之间彼此关联,依赖性强的原则,传统的几个分布式的系统已经很难去处理,我们需要一个更高速的系统,所以我们搭建了围绕顶点流水化磁盘图计算的方法,来搭建了一个扩容性很高的系统,目前的情况下我们使用一台服务器大概需要差不多 120 个小时左右,可以把我们现在权量的关系全部跑一遍。如果要对用户做完整的标记评分,大概需要 62 个小时完成。 

由于这个算法的计算,我们会进行大盘数据的分析,最后我们会输出一个结果就会看到,由于算法计算完以后,会看到不同的群体,其实会有相似的这种系统驱动性,但是在这中间就会发现很多不一样的点出来。大家其实看到,这个就是依据于算法跑出来的结果,这个结果里面其实可以看到绝大多数的点都是相同的,但是一定会出现不一样的群体。这些不一样的群体就是我们中间能够发现的高可疑的状态。最终我们把这些可疑的状态纳入到线网当中,去进行一个快速识别时就可以发现大量的疑似恶意的行为。

右边我列了两种恶意的行为,上面是跟内容相关,下面大家看上去好像没什么问题,如果熟悉黑产行业的,各位可能就会知道,右下就是色情引流,用美女的头像去吸引点击,实际上本身的账号就是有非常严重的问题,但从传统的规则匹配或行为匹配上没有任何的问题,这只能在大盘里通过社交关系和单个用户的打分来找出不一样的群体。

这个是在账号这一层做的一些动作,在账号维度之后我们会进入到第二层,也就是说构建第二层段内容的模型。我们在第二层内容的模型一共四层,最底层是数据层,构建画像、信用、信息、种子库这样的基础系统。在算法这一层,包括像文本的识别,像Boosting的算法入到基础的算法库。我们在逻辑处理这一层,可能大家都很了解,像风险识别、子类分析,都有不同这样的维度。最后我们会在接口层上输出不同维度的产品。

我们可以介绍一下这块做的工作。分两部分,一部分是存量,一部分是新增。

我先从存量讲起,对所有存量的数据我们会从三块去做,业务层其实是存量的数据,第二层做了一个无监督的学习,无监督学习这里主要是用Boosting的方法去做,我们先生成了一个词类的字典,然后生成变换举证,去生成小类的表格,然后用算法对整个词生成多套变换矩阵最终进行排序,目标是进行参数判断,最后进入一个打击策略,也就是我们叫做处理的阶段。这个过程不用考虑太多效率的问题,因为毕竟是对历史存量数据的处理,但是对于实时的信息,也就是新增的话,会需要一个更快速的处理逻辑。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读