美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子(5)
接下来我们会考虑到,因为现在的数据源多样,各个数据源的数据特征都不太一样,属性也不太统一,离散和连续其实是并存的,整个查询不一致,又是非线性分布,而且特征维度较高的情况下,单独使用性能都很差,人工规则又很难覆盖,所以我们需要使用随机分离的模型来训练。整个模型是从训练子集当中进行采样,同时从各特征集也进行采样,最后建立一个决策树,进行自动选择,最终形成一个分裂的二叉树,采用投票的方式进行分类。这个分类迭代了以后,可以较好提升检测的性能,但依然不是一个完美的状态。 我们有一个更高的要求,因为我们对精度有更高的要求,针对于误差,我们在学习的时候由于有更好的精准,标签数字也在增加,这个时候我们需要采用新的方法,所以我们有了第三个阶段,基于残差的阶段去做了这样的动作。 基于残差的思路,我们建立了一个弱学习器,通过迭代训练集成了一个boosting的分析器来进行学习,优点是在大数据集下分类性能最好,而且适用于非线性特征和多特征的类型。这个是不是完整的呢?其实最后还是不完整的。由于腾讯社交网络的业务多样化,以及腾讯云上客户应用场景的多样化,这个时候我们需要在各个场景去进行一个定制化建模的时候,人力成本会变得越来越高,最后我们的解决思想是采用神经网络进行模型设计,最后基于迁移学习,进行实地的迁移或目标领域的特征。优点是一套方案可以多处复用,适合于标签数据偏少的情况。 最终我们会在这个模型上输出一个框架,这个框架是我们现在在风险控制领域出来的基础架构,最底层是我们的画像数据层,包括基于我刚刚讲的几个算法形成画像数据、设备指纹数据以及知识图谱。在云数据上,我们保留了终端数据、身份数据以及恶意内容的数据。在算法这一层,对于像迁移学习、boosting等算法纳入到基础的算法层,这一层主要是基于内容这一块的,比如像传统的图像识别以及语音识别等等算法,可能还有第三块,就是最右边灰色的这一段。灰色的这一段刚刚没有重点介绍,因为灰色这一段是属于泛安全这一块。因为左右,其实蓝色跟绿色这一段跟安全更相关,灰色这一段是为了我们在图计算当中能够更好地去识别相似群体用的。 比如像这里,灰色第三段,像Look Alike的算法,一般是在广告系统里用得比较多,但是在安全领域用的时候,依然可以在相似当中进行扩展,这就形成了算法层,最终我们会形成服务层的模型,以便向金融、内容以及市场领域进行应用,最终我们形成了这样一个统一的框架。 这个框架的数据现在除了在腾讯用,在电商、直播、移动以及O2O等多个行业其实也都会应用。 我这里画了一页图,就是战斗才刚刚开始。我们虽然用了很多对抗,实际上我们来看准确率跟覆盖率,其实效果还不错,但对手也在演进,不是说开始在一成不变的状态。上午的时候,其实各位已经看过了这样一个验证码的平台,我今天把这个平台再进一步放一放。 这是基于神经网络搭建的黑产验证码破解平台,这个平台的开发者是一位博士,他其实主要是做的中国现在验证码的识别。这个平台是基于现在很流行的一个深度学习的模型,叫caffe,基于这个模型搭建,搭建完了以后大概是花了 50 几台服务器去进行深度训练。在这个平台里面,最终积累了差不多 1 万左右字符的样本,大概积累了 5000 万左右的学习样本,对中国目前市面上所有的验证码进行破解。目前依据这个平台上来看,它在 2017 年的上半年,也就是前 6 个月,这个平台上一共发生了 259 亿次的验证码破解,破解的成功率在95%以上。也就是现在中国市面上所有的验证码全部可以破掉,不管你怎么对抗。 大家可以看到,我这个图右边有个用户,就是用户ID,这是我们测试的情况,用户ID3532,识别量 36 万条,准确率96.95%,是用这个平台搭建出来的。框架就是你进来的时候有一个验证码的分发,然后是数字加字母的识别,最终进行分布式的学习,通过识别结果优选,然后进行一个结果的输出。 但这不是这个平台的真相,平台更深的真相是,大家都知道,所有的验证码都是图片,所以这个平台在这个系统之前还搭建了一个OCR的模块去完成整个识别。为什么要做这件事情?目标就是简化,为了防止图像需要进行二次的预处理,所以自己先搭了一个OCR的模块,把图片先预处理一遍,最后进入平台。换句话说,你只要给他OCR就可以完成。我们在进步,我们的对手也在进步,对抗是越来越激烈了,这块其实学无止境,我们有了初步的这种研究,但是战斗仍将继续下去,也希望后面能有机会跟各位再继续进行一些相应的交流跟沟通,我今天的分享就到这里。 以上为演讲全文。下面是问答环节。 雷锋网:上午说有一个验证码的抗击,我想知道验证码抗击的准确率是怎么样算出来的?如果说你没有识别出是坏人,你认为他是好人,你怎么知道他是坏人? (编辑:ASP站长网) |