美女头像这么多，腾讯云安全用大数据告诉你哪个是骗子(4)

发布时间：2017-09-08 06:17 所属栏目：53 来源：雷锋网

导读：对于增量的训练，其实集聚的原则是来自于对存量样本的学习，因为刚刚提到，存量只要在乎准确率，但是对效率不是那么看中，对存量稍微慢一点没有关系，但会形成大量基础的样本，基于基础样本可以对新增进行训练，我

对于增量的训练，其实集聚的原则是来自于对存量样本的学习，因为刚刚提到，存量只要在乎准确率，但是对效率不是那么看中，对存量稍微慢一点没有关系，但会形成大量基础的样本，基于基础样本可以对新增进行训练，我们也可以根据存量数据形成新增数据多维矩阵，包括有字典变换矩阵以及小类的列表，进而进入到处理。在这个过程当中，我们可以通过降维的方式让文本进行持续的演变，通过定义我们整个库的大小，同时更改一个时间窗口，来更新我们用于预测的库，从而提升本身我们匹配的效率，最后达到我们所需要的效果。这个过程完成以后，目前达到的一个情况是，现在对于存量的处理，我们大概准确率在99.8%，对新增的处理大概我们的准确率会在99.7%左右，大概会差0. 1 个百分点。

对所有的内容数据进行处理完以后，下一步就是对于风险管理这块的处理。在这个过程当中，其实也经过了几代的策略。在最开始的时候，我们其实是希望去使用逻辑回归进行这样相应处理的过程，使用逻辑函数来表示属于目标类别的概率，并且使用一个随机梯度下降的方式去进行优化的求解。好处主要是，由于业界基准的模型能够预测出目标的概率、高效、易使用和容易解释，但这个模型的缺点也是非常明显的，最大的一个问题是在于覆盖率较差，而且对于多特征或特征比较缺失的场景下，这个模型的效果并不是最好的。

同时，他也会有一个问题，对于这种非线性特征超空间的划分能力，本身并不足，而且更大的一个问题存在于供给，直接导致这样随机设立的模型不是最佳的处理方案。

（编辑：ASP站长网）