基于标记数据学习降低误报率的算法优化(2)

发布时间：2018-04-02 13:22 所属栏目：125 来源：站长网

导读：简要代码如下：此安全威胁场景相对简单，我们不需要太多的特征值和海量的数据，所以机器学习模型选择了随机森林（RandomForest），我们也尝试了其他复杂模型，得出的效果区别不大。测试结果如下：达到我们所预期

简要代码如下：

此安全威胁场景相对简单，我们不需要太多的特征值和海量的数据，所以机器学习模型选择了随机森林（RandomForest），我们也尝试了其他复杂模型，得出的效果区别不大。测试结果如下：

达到我们所预期的效果，当训练数据越来越多的时候，测试数据当中的误报率从20%多降低到了10%。通过对告警数据和标签的不断自学习，可以剔除很多告警误报。前面提到，数据当中引入了9%的噪音，所以误报率不会再持续的降低。

在我们的机器学习模型当中，我们利用了4个主要的特征值：

1.srcIP，访问源IP

2.timeofday，告警产生的时间

3.visits，访问次数

4.destIP，被访问IP

下图显示了特征值在模型中的重要性：

和我们的预期也是一致的，访问源IP（srcIP）和告警发生的时间（timeofday）是区分出误报告警效果最好的特征值。

另外，由于随机森林模型以及大部分机器学习模型都不支持分类变量（categoricalvariable）的学习，所以我们把srcIP和destIP这两个特征值做了二值化处理。简要代码如下：

总结

本文通过一组模拟实验数据和随机森林算法，从理论上验证了“标签传递经验方法”的有效性。即通过安全分析专家对告警日志进行有效或误报的标记，把专家的知识技能转化成机器学习模型的分析能力。和其他方法相比，此方法在完成自动化学习之后就不再需要人工干预，而且会随着数据的积累对误报的剔除会更加精确。

（编辑：ASP站长网）