美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子(4)
对于增量的训练,其实集聚的原则是来自于对存量样本的学习,因为刚刚提到,存量只要在乎准确率,但是对效率不是那么看中,对存量稍微慢一点没有关系,但会形成大量基础的样本,基于基础样本可以对新增进行训练,我们也可以根据存量数据形成新增数据多维矩阵,包括有字典变换矩阵以及小类的列表,进而进入到处理。在这个过程当中,我们可以通过降维的方式让文本进行持续的演变,通过定义我们整个库的大小,同时更改一个时间窗口,来更新我们用于预测的库,从而提升本身我们匹配的效率,最后达到我们所需要的效果。这个过程完成以后,目前达到的一个情况是,现在对于存量的处理,我们大概准确率在99.8%,对新增的处理大概我们的准确率会在99.7%左右,大概会差0. 1 个百分点。 对所有的内容数据进行处理完以后,下一步就是对于风险管理这块的处理。在这个过程当中,其实也经过了几代的策略。在最开始的时候,我们其实是希望去使用逻辑回归进行这样相应处理的过程,使用逻辑函数来表示属于目标类别的概率,并且使用一个随机梯度下降的方式去进行优化的求解。好处主要是,由于业界基准的模型能够预测出目标的概率、高效、易使用和容易解释,但这个模型的缺点也是非常明显的,最大的一个问题是在于覆盖率较差,而且对于多特征或特征比较缺失的场景下,这个模型的效果并不是最好的。 同时,他也会有一个问题,对于这种非线性特征超空间的划分能力,本身并不足,而且更大的一个问题存在于供给,直接导致这样随机设立的模型不是最佳的处理方案。 (编辑:ASP站长网) |