机器学习的用户实体行为分析技术在账号异常检测中的实践
当前,用户实体行为分析(User and Entity Behavior Analytics,UEBA)系统正作为一种新兴的异常用户检测体系在逐步颠覆传统防御手段,开启网络安全保卫从“被动防御”到“主动出击”的新篇章。因此,将主要介绍UEBA在企业异常用户检测中的应用情况。 首先,通过用户、实体、行为三要素的关联,整合可以反映用户行为基线的各类数据;其次,定义4类特征提取维度,有效提取几十种最能反映用户异常的基础特征;再次,将3种异常检测算法通过集成学习方法用于异常用户建模;最后,通过异常打分,定位异常风险最大的一批用户。 在实践中,对排名前10的异常用户进行排查,证明安恒信息的UEBA落地方式在异常用户检测中极其高效。随着互联网技术的日益发展和国家在大数据战略层面的深化推动,数据采集终端越来越多,收录的种类越来越丰富,数据已经成为企业重要乃至最核心的资产之一。 在数据价值受到高度重视的同时,企业面临的各种针对数据安全威胁的问题也愈发严重,信息安全保障逐渐聚焦为数据的安全保障。通常情况下,外部攻击种类繁多、持续高频,企业习惯于将资源布置于构筑安全防护堡垒,以抵御来自外部的进攻。然而,除了外部的黑客攻击,内部人员参与信息贩卖、共享第三方的违规泄露事件也层出不穷。 调查显示,约有75%的安全威胁是从组织内部发起的。无论是离职员工顺走专利数据,还是心怀怨恨的员工蓄意破坏系统,一再发生的各种安全事件证明,攻破堡垒的最容易的方式往往来自内部威胁。面对这种威胁,内外双向的安全需求催生了用户实体行为分析(User and Entity Behavior Analytics,UEBA)。对内,传统威胁防御手段不足。对于已经意识到问题紧迫性的企业而言,使用传统的安全技术并未能帮助他们有效解决来自内部的安全问题。 原因在于传统方法多为分散的、事后的、缺少针对性的。安全最薄弱的环节是人,只有建立以用户为核心对象的分析体系,才能更加及时发现和终止内部威胁,杜绝信息泄漏于萌芽状态。对外,市场需求推动技术更新。 作为一种高级网络威胁检测手段,UEBA发展迅速,甚至正在颠覆原有市场格局。UEBA是基于大数据驱动、以用户为核心、关联实体资产、采用机器学习算法进行异常分析以发现解决内部威胁的一套框架和体系。 相较于传统手段对安全事件的关注,UEBA更关心人,通过用户画像和资产画像,检测诸如账号失陷、主机失陷、数据泄漏、权限滥用等风险,以极高的准确率定位异常用户。 1 企业员工账号的关联 UEBA本质上属于数据驱动的安全分析技术,需要采集大量而广泛的用户行为类数据。大数据时代,数据是一切分析的基础,少量的或者质量不高的输入必然导致价值不高的输出。然而,这并不意味着数据纯粹的越多越好,与场景不相关的数据,过多收集只会增加系统负担。 所以,行为分析的基础是数据,数据采集的前提是场景,采集的数据要和分析的特定场景相匹配,高质量多种类的数据是用户实体行为分析的核心。用户实体行为分析可以使用的数据,包括安全日志、网络流量、威胁情报以及身份访问相关日志等,尽可能多地接入和用户场景相关的数据,常见如VPN日志、OA日志、员工卡消费日志以及门禁刷脸日志等。 可以将这些数据大致归纳为用户身份数据、实体身份数据和用户行为数据3种类型。用户身份数据分为两类:一类是真实身份数据,如人事部门提供的员工资料;一类是虚拟身份数据,如用户在网络上的注册资料。由于UEBA严重依赖高质量数据,使得企业需要有数据治理的基础能力,需要有统一的数据字典。 通过统一数据字典,可以统一不同日志的字段信息,进而关联不同日志的用户信息,通过关联真实身份与虚拟身份,达到定位具体的用户的目标。实体身份数据是网络中用户的唯一身份标识,如IP地址、MAC地址等。用户行为数据分类则可分为网络行为信息和终端行为信息。 2 员工账号与实体资产的关联 员工账号与实体资产的关联,即用户身份数据与实体身份数据的关联,它们通过用户行为数据实现关联。例如,某用户登录VPN,通过登录日志的用户信息相关字段,可以定位用户的身份信息。用户使用VPN访问公司内网,通过访问日志的目标地址信息相关字段,可以定位实体资产的身份信息,获取会话期间终端日志信息,同时也实现员工账号与实体资产的关联。 访问日志的获取有多种形式,可以是VPN设备自身记录的日志,也可以是其他安全设备的记录日志,如深度包检测(Deep Packet Inspection,DPI)系统日志。所谓“深度”是和普通的报文分析层次相比较而言的。 “普通报文检测”仅分析IP包4层以下(物理层、数据链路层、网络层、传输层)的内容,包括源地址、目的地址、源端口、目的端口以及协议类型。而DPI除了对前面的4层进行分析外,还增加了应用层等其他层的分析,识别各种应用及其内容。DPI系统提供的审计信息、应用程序会话识别信息、应用程序会话流量统计信息、网络传输层流量统计信息、应用层流量统计信息等,可以极大丰富用户网络行为信息。终端日志可以通过终端检测与响应(Endpoint Detection and Response,EDR)系统获取。 EDR日志可以帮助采集终端的内存操作、磁盘操作、文件操作、系统调用、端口调用、网络操作、注册表操作等,通过分析进程行为、应用行为以及服务行为等,补全用户终端行为信息。通过用户网络行为与终端行为等信息整合,可以完成用户与实体的关联,同时也完整地还原了用户的网络会话和会话期间的用户行为,为后期的行为分析提供高质量的数据素材。 3 基础特征提取 用户行为特征提取是整个用户行为分析建模的基础,需结合业务实际需求,找出相关的数据实体,以数据实体为中心,规约数据维度类型和关联关系,形成符合业务实际情况的建模体系。一般的特征提取步骤包括用户数据与实体数据的分解和对应、实体间关联关系分解、用户特征维度分解以及用户行为特征的提取。 (编辑:ASP站长网) |