整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

数据量飞升的同时需要高性能的支持:这家初创公司如何做好大数据的安全

数字时代带来了海量的数据,而中国的快速发展和大国人口为大数据的应用提供了一个全球范围内最适宜的环境。大数据环境相比传统数据库环境,不仅仅是数量级上的提升,更需要在保持性能的情况下进行计算——这无疑给大数据的安全带来了更多挑战。那么大数据安全该如何落地?大数据和大数据安全的发展又通往何方?洽闻国内专注大数据保护的厂商——观数科技近期进行了新一轮千万级的融资,安全牛采访了观数科技创始人李科,并就这些问题以及观数科技的发展进行了解。

人物介绍

单位时间内通过某个网络的数据量_网络数据量的常用单位_单位时间内传送的数据量叫什么

李科

观数科技创始人兼 CEO

李科,曾任椒图科技总经理。在安全行业从业十多年,有多年 Web 渗透测试服务和安全评估经验,参与数千次渗透项目实验,并拥有多项安全相关专利。

从主机安全到大数据安全

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

观数的团队是以前椒图科技的,而椒图科技是致力于主机安全的,那你们怎么就开始做数据库安全、大数据的安全了呢?

李科:这其实和我们从椒图离开有直接关系。我从椒图离开的时候,因为竞业限制,需要重新选择方向。而我们发现,在大数据这个领域,也需要用到访问控制,只是主体和客体发生了变化,但技术的使用和目标却依然是一样的。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

我感觉应该还是有点区别的:主机安全主要面对的是系统,而大数据的安全则面对的是数据库。

李科:技术栈确实不一样,但本质上只是主体和客体的变化:在操作系统上,主体可能是用户和进程;在分布式数据库上主体就可能是列、组、字段等——但进行防护安全理念是不变的。所以,我们就可以把之前做主机防护的思路转化到分布式数据库上。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

所以你选择转移到大数据,是因为你觉得大数据是未来的方向,而且暂时没什么人在专营大数据保护这个领域。

李科:在 2015 年寻找方向的时候,我们首先在考虑云计算。但是,云计算各种层面上都和主机安全重合度太高——云计算其实是将一个主机虚拟成多个系统,但大数据恰恰相反——大数据把多个主机集合成一个系统,这其实会带来新的问题。我们自己动手后发现,根据网上的教程搭建出来的系统,只要网线能连上,就能访问 hadoop 中所有数据。然而,这些访问没有任何的账户体系,也缺乏足够的访问控制。在这样的情况下,我们在国内做了一些研究,寻找是否有专注于做大数据安全的公司,结果发现没有。但是,我们发现国外有像 这样的公司;于是我们就认为这样的需求事实上是存在的。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

那在确定了这个方向之后,你们开始着手做了哪些内容呢?

李科:我们就开始往这个方向做第一款 DAF,对应 WAF( D 代表 Data )。在 2016 年做出来了以后,拿到公安部三所去送检。当时国家也还没有标准,所以专家认为这是可以填补国内空白的工作,就去参照国外同类产品的功能。我们现在也是唯一一个有公安部发的针对 hadoop 安全的《信息安全专用产品销售许可证》。目前仍然只有我们一家有这个证。

大数据安全的三大痛点:敏感数据处理、合法合规、集群管理

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

那你们之后都在哪些行业推广了自己的产品呢?

李科:首先是运营商。我们发现运营商在整个大数据的板块里,从技术的角度来看是最成熟,规模也是最庞大的。

其实我们刚和电信接触的时候,他们并不认可单一的产品。他们对大数据安全是有一个整体的顶层设计的,所以如果我们只能解决中间一个环节的问题,他们是没法给我们立项的——我们必须要一个整体的安全解决思路。那我们就反过来和他们沟通,询问他们的真实痛点是什么。最后,我们总结出了三个痛点:敏感数据的处理、合法合规、以及集群管理。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

敏感数据的处理一直都是数据安全领域非常重要的话题,那在大数据安全领域你们是怎么看的?

网络数据量的常用单位_单位时间内通过某个网络的数据量_单位时间内传送的数据量叫什么

李科:这一步里细分了很多领域,比如如何梳理敏感数据资产。电信有些宽表有几千个字段,包含了身份证号、电话、家庭地址等等。电信表示他们知道自己有很多敏感数据,但是如果没有一个完善的资产表,他们无法知道这些敏感数据在哪。另一方面数据开放才有价值:数据需要在流动中才能产生价值,在这个过程需要跨部门,甚至跨机构,但是需要在流动过程中防止敏感数据泄露。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

现在你们在这个痛点上有什么样的解决方案?

李科:我们平台里有两个模块:一个是敏感数据发现,这个就对接了现在的主流大数据平台,像 HDFS、HBase、Hive 等。我们自己也定义了一个数据分类分级的标准。我们通过和人访谈,比如在电信行业之前有自己内部的一套标准,并且在今年发文正式制定。我们根据这个标准,创建了一个发现敏感数据的引擎,可以扫描数据库并生成报告,告诉用户自己的哪些敏感数据在哪个表、哪个字段。

另一个模块是脱敏,分为两种:静态脱敏和动态脱敏。静态脱敏主要用于存量数据,当要开放给其他第三方分析的时候,在从A库拖到B库的过程中,用加星、泛化等方式进行脱敏处理。静态脱敏一般没有实效性要求。静态脱敏已经在我们一期的几个电信环境都已经落地了。当我们今年在第二期的时候,就遇到了动态脱敏的需求。动态脱敏要求实时处理,这就比静态脱敏更进了一步。这个时候我们就转换思路,用 Spark 在中间做了一个转化层,这个转化层可以做到只要数据经过,就能实时进行脱敏处理。但事实上,我们发现结果不是特别理想。因为一旦数据量太大,我们这个环节就会成为瓶颈。所以,后来我们又想了一个办法:我们只截获传输中的 SQL 语句,或者是大数据取得语句,通过改造语句,直接做到在输出的时候不含敏感字段。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

感觉这个要求的技术含量很高,因为一个 SQL 指令的处理会面临的是海量的数据。

李科:对,而且语句当中存在嵌套。我们在这个技术上确实花了很长时间,而且不少厂家已经在这个坑上卡了一年多。

我们实际上也不快,只是我们在电信行业里花了一年多时间去研究这方面的实现方式。这需要同时对业务和大数据整个框架都比较熟悉才能做到。前几年都在说 NoSQL、NewSQL,但这两年我们感觉在大场景里都在转向 AllSQL——这样才能标准化。现在就有点像 Linux 十年前的环境,没有标准化。我对大数据行业前两年的印象就是乱象丛生,但现在我们明显能看到是在往 AllSQL 的方向走。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

等保2.0是今年才出的,那你们是之前就发现了合法合规是一个痛点吗?

李科:是的,因为其实除了等保,之前还有网络安全法。另一方面,工信部本身就有一套对数据安全和行业监测的标准,这其实是刚需。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

集群管理这个痛点又是怎么一回事呢?

李科:之前机器只有几十个,上百个,客户会需要一个好的管理软件,去下发补丁、统一管理。但是,现在集群数量太多了,像刚刚提到的有 1,500 个,那如何管理这样庞大的集群就成了问题。主机层面有其他厂商在处理,我们不会去插手,然而这上千个集群中会有几十种组件,使用的版本还可能有区别;那么,一旦某个版本出现性能不足、消耗内存过多、需要打补丁、甚至出现了漏洞该怎么办?我们现在把这个需求称为 “集群管理”,而且用户在这方面急需一些有管理能力的工具,而我们的平台现在也兼具了这样一部分功能:一旦安装了我们平台,那么当前集群的一些参数,比如 CPU 消耗、内存消耗,都可以被收集。我们在平台上还有一个阈值的调整,对于偏离阈值的情况进行告警;当有新的补丁发布,我们会进行提示。我们目前已经解决了集群管理中的一部分问题。这方面在未来还有很多工作要做。这可以算是泛安全的概念。

观数的技术优势

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

这三个痛点是你们现在总结出来的,并且在运营商行业有了一定的成果。那现在你们是准备继续在运营商领域挖掘,还是计划扩展行业了?

李科:我们其实除了运营商,还有一个领域是电网。

因为电网除了电力输送之外,还有一个作用是信息。电网本质上和运营商是一样的,只不过电网跑的东西是它自身——国家电网是有一套自己的内网进行运行的。这一套系统的需求其实和运营商差不多。所以在电网里,我们的一些大数据审计、漏扫之类的功能也在使用。这两个行业我们已经摸索了两年多了,因此相对而言有一些经验。但是我们现在还没有做好去扩展新行业的准备。我们这次融资的目标,是将业务扩展到全国的运营商,将我们现在比较成功的模式在全国进行复制。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

我们知道现在大数据市场已经完全爆发了,各行各业都在建大数据平台。在这个情势下,很多安全需求可以很直白地被看出来。那么这些安全需求现在由谁在处理呢?

李科:运营商和电网是我们作为原厂商专门去耕耘的行业,我们并不主要去做其他行业,但是我们有合作伙伴希望我们一起去挖掘——比如深信服。我们刚中标了一个区的雪亮工程,他们使用的大数据集群和超融合一体机都是深信服的,那么里面集成的大数据访问控制和脱敏就是我们来处理。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

单位时间内传送的数据量叫什么_单位时间内通过某个网络的数据量_网络数据量的常用单位

这么多大数据市场和结构,其实都缺乏有效的安全保护,或者是比较合理的机制。大数据平台都已经建立起来了,那这些工作是谁在做呢?

李科:有一些厂商也在跟进。大一些的厂商都已经开始涉足这个领域了。和他们相比,我们起步更早,有更多的积累,并且我们只做这一件事。举个例子,某些厂商做数据库审计,他们做了很多年,市场也很大,他们现在也在做这方面的审计,但是他们现在而言支持的组件远比我们少。

我认为做这行是需要时间的,而不是说其他厂商没有这方面的能力。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

那你们在运营商和电商两个领域的经验,以及总结出来的三个痛点是否是普适的呢?

李科:是。这三个痛点肯定是普适的。这是我们在第一年的项目中总结出来的。但是,我们在第二年的项目当中又发现了一些变化:变得更场景化。然而,场景化的需求不是厂商闭门造车就能搞明白的。我们现在的审计已经做到天天和用户在一起做分析。最初我们主要做的就是五要素:主体、客体、时间、动作、结果,形成一个记录。我们会基于记录进行分析,把数据做成了可视化——这是我们第一期的工作,达成了事后有据可查。而现在我们开始在做事件关联,就是我所审计的日志,和客户的业务产生关联性。另一方面,当我们发现某个字段出现 “update” 和 “delete” 操作,并且这个字段是敏感字段,那我一旦点开这个字段,我能发现这个字段上级属于哪个列族、哪个库,并且来自于哪——即血缘分析。这是我们现在主要在往前做的功能。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

现在大数据市场本身也在变化,比如之前都是 Hadoop,那这种情况是否会影响你们的发展?

李科:在第一年的时候确实存在这个问题,我们都要去做定制开发,所以我们支持的组件范围就相对比较广。但是现在 AllSQL 的模式正在影响用户,所有的功能都在往这个方向转,所以我们现在的精力也主要往这个方向走。我们的思路是今年在我们的电信产品中,往一个平台的方向走:无论后台是用哪种组件,只要接入我们平台,就用 SQL 的协议进行转换,从而就能做得更标准化。

大数据安全 Vs. 数据库安全

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

你认为你们和普通的数据库安全厂商最大的区别是什么?

李科:其实从根本上来看,我们现在是在一线的、不完善的技术层面进行摸索。大数据解决的是性能问题;我们一直都是以此为前提在做安全。所有人都知道性能和安全是冲突的——而我们和传统的数据库安全的区别就在这点上。传统数据库在做的时候不需要太多考虑性能方面的问题,因为性能早就已经决定了——他们就是处理实时的、小数据量的内容。但是到了大数据领域,用传统数据库也能解决——用一千个防火墙;但是一旦这么处理了,也不用做大数据了,因为效率太低失去了大数据的意义。我们的技术特长和难点,就是我们一定要在兼顾性能的情况下考虑安全。

首先分布式就是有区别的——所有鸡蛋并不是放在一个篮子里,我们要解决如何整体去保护的问题。另一点就是不能影响性能。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

所以很多比较敏感的涉密单位,最后的保护方式就是加密。但是一旦加密,对于使用而言就很麻烦,性能会很低下。那你们大数据会涉及到这方面问题吗?

李科:这类单位的重点是分类分级。一旦某些信息被分类到一定敏感级别,即使牺牲性能,也必须要进行加密;未到达敏感级别就不能加密。因此,分类分级反而是这类单位大数据的最关键点。据我所知,现在有多个运营商都在要求大数据加密的组件,我们也为他们提供了一些 demo。但是要做到这件事情,首先要能梳理好企业自身的数据资产,否则全部数据都加密,大数据也就不用落地了。

观数的未来发展

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

安全牛

刚刚聊了很多技术方面的内容,那在市场前景、企业文化等方面,你是怎么看的呢?本次新融资的投资方是谁,这轮融资的主要规划是什么?

李科:市场前景的话,就像我之前提到的,大数据已经在开始往标准化的方向走了;对于我们而言,现在就是立足这两个行业,以我们自己的能力去深挖。在这两个行业里,我们需要做的就是把我们标准化的产品打磨出来。我们刚进入行业的时候都是接项目。尽管我们都是带着我们自己的产品和客户沟通,但是客户都觉得我们的产品和他们的实际需求差距有点大,所以就需要进行定制。结果就是前几个项目我们都是定制,再加上我们原来产品,进行了大量的开发工作。在这个过程中,我们发现,可以把一些做得很好、很标准的功能单独提取出来做成产品——这些产品是不需要我们将来去做服务的,就像防火墙以及审计类产品一样。我们今年的目标就是做出两款标准化产品。这些标准化产品的意义在于我们以后就有能力和大厂商合作,作为原厂商输出产品,给一些深信服、绿盟、奇安信等大公司员工进行培训,让他们提供服务,甚至可以将大量的利润让给这些公司。只有这样通过渠道,像我们这样以技术,而非销售为导向的公司,才能提升产品的销售量。这是我们现在最重要的事情。

我们本次投资方是瀚晖资本,是一家关注高成长性的投资机构,此前成功投资过欧派家居 (603833)、科顺股份 (300373)。本次融资主要规划是建立销售 体系和技术支撑队伍,提升服务质量和能力,进一步扩大市场。

安全牛评

观数科技通过自身与国内大数据应用能力最强的运营商领域的合作,逐渐总结出了大数据安全的三大痛点:敏感数据的保护、合法合规、大量集群管理,在原有功能的基础上进一步针对痛点进行开发。这些是观数成立以来专注于研究大数据安全,和客户一起研究、分析的成果。安全领域需要大量的积累,尤其是针对客户需求的总结,而不是闭门造车地一味追求某种功能。观数因起步早产生的经验积累,与他们对大数据安全的专注,成为其在这一领域立足的优势。

另一方面,观数科技的 CEO 李科也提到,大数据的整体方向也将是走向标准化。这一趋势,无论是对大数据平台,或是正在涉足大数据安全的厂商,都是在考虑自身产品开发与落地时必须意识到的因素。

单位时间内传送的数据量叫什么_网络数据量的常用单位_单位时间内通过某个网络的数据量

推荐 l 恶意邮件智能监测与溯源技术研究

(1)公共反钓鱼网站平台提供的资源信息;

(2)与该URL相关的关联信息。

基于URL的链接识别、基于域名的特征识别和基于公共反钓鱼平台信息进行的邮件过滤基于静态特征匹配技术,可实现对邮件的快速监测和过滤。基于页面、基于内容的特征识别和与该URL相关的关联信息分析可以基于动态分析技术,识别更隐蔽的邮件攻击。具体URL过滤的特征分类和主要指征如图2所示。

3.jpg

URL域分析URL链接的特征。通过分析URL链接的基本属性、行为意图、域名情况,判断该URL是否具备恶意链接的基本特征或存在不良行为意图。

(1)基本属性包括:URL数字计数、URL总长度。

(2)行为分析是对攻击者行为意图的识别,判断依据是分析攻击者是否存在刻意混淆行为。评价标准有:是否存在刻意模仿行为、是否存在拼写语法错误(拼写语法错误往往是由于攻击者插入了特殊字符、隐藏字符等)。

(3)域名分析是通过分析URL子域个数、顶级域名(Top Level Domain,TLD)是否是常用域名、域名起名是否存在规律性和随机性、是否故意设置了存在歧义性的域名等异常行为特征。

基于域名的特征识别,通过公共资源利用、基本属性分析和行为分析方式,识别URL链接是否为可信链接。公共资源利用是通过与国际反垃圾邮件组织提供的黑/白名单比对,发现域名是否可疑;基本属性分析是通过检查域名注册的时间信息,分析域名可信度;行为分析是通过域名分配机构提供的域名注册信息,分析域名用者是否存在刻意隐藏注册人姓名、注册地址等可疑行为,依据可疑程度综合评估确定域名是否可信。

基于页面的特征识别,通过分析链接所指向页面的属性和关联信息,检查URL链接是否符合正常页面的访问特征。检查依据:全球页面排名情况、国家页面排名情况、Alexa流量排名情况、页面类别、相似页面、被其他网站的引用次数、页面每日/月/周的平均访问次数、平均访问时间等。

基于页面内容的特征识别,通过分析链接所指向页面的页面内容,判断URL链接的可信度。需要进行基本属性分析、行为分析和站点分析。基本属性分析是通过分析页面标题和正文文本内容发现页面的不正常状态。行为分析需要对页面的不可见文本、图片、登录情况、网站受众信息等进行逐项分析,发现页面的可疑特征和攻击意图。站点分析是通过分析站点架构和页面标签项,判断站点是否具备正常网站特征。如经过检查发现页面存在异常行为,则判断页面对应的URL链接为恶意链接。

明确URL链接识别中的基本要素后,为每一象限特征构造一个决策树,多棵决策树累加、训练得到最终URL链接的识别结果。

2.4 邮件内容过滤

邮件内容过滤是垃圾邮件过滤的关键步骤。将内容过滤分类为文本监测过滤和图片监测过滤,采用深度文本意图分析技术、图像识别技术、图像对比技术进行邮件内容过滤。

2.4.1 深度文本意图分析技术

传统文本监测技术是基于关键字或多项关键字的正文文字检验,针对敏感信息外发,涉密文件监测有一定效果,但是忽略了对邮件正文结构的监测,而且误报率高。本技术的核心思想是提取邮件的正文特征和主题特征,采用异常文件结构识别技术和语义意图分析技术进行邮件内容和结构的大数据建模。模型建立后解析当前邮件样本的文本内容和文件结构,通过模型分析当前邮件与正常邮件在内容、结构方面的偏离度,深度挖掘邮件发送者意图,区分恶意邮件与正常邮件。通过偏离度分析模型能够在一定程度上识别ATO攻击、BEC攻击中邮件正文链接使用的0day漏洞,对抗高级加密混淆类漏洞利用攻击。具体包括:

(1) 分析标题及正文意图,与URL内容进行比较,判断意图是否一致,如不一致判断存在攻击行为。典型应用场景为:邮件诈骗者骗取用户访问恶意URL链接,利用浏览器漏洞在用户主机执行恶意代码或者盗取用户密码。

(2) 分析标题及正文意图,与附件(文档类)内容进行比较,判断意图是否一致,如不一致判断存在攻击行为。典型应用场景为:攻击者向目标邮箱账户发送含有漏洞利用程序的附件文档,此类恶意文档一般存在文件结构问题,可通过数据建模的方式识别异常。邮件安全防护系统进行垃圾邮件过滤时如果仅凭结构异常就判定邮件为恶意邮件,可能造成误报影响用户体验。若通过意图比较技术进一步分析,一旦发现邮件行为意图可疑并且文件格式存在问题,则初步判断邮件可能为恶意邮件。通过意图比较分析技术能够提高恶意邮件识别的准确率。

钓鱼邮件一般特征包括_钓鱼邮件的主要目的是_钓鱼邮件的一般特征包括

(3) 加密恶意附件的解密与监测技术:为规避检查,聪明的邮件攻击者可能使用加密技术进行攻击载荷隐藏,并在正文中显示密码,方便用户手工输入解密。自动化沙箱监测因不能识别密码而无法对邮件解密进行检查。加密恶意附件的解密与监测就是通过文本语义分析技术自动识别出正文中的密码信息,并以此为凭据解密附件,进行自动化分析与过滤。

2.4.2 图片识别技术

随着邮件攻击技术的发展,出现了将信息隐藏在图片中发送的垃圾邮件规避技术,图片识别技术专用于监测此类攻击。有两类主要技术方法:

(1) 图片文字识别技术:利用该技术可将图片中的文字转化为文本,然后使用深度文本意图分析技术进行发送者意图分析,识别通过图片隐藏的恶意垃圾邮件。

(2) 图片密码识别技术:为规避邮件过滤系统的监测,攻击者常常将带有恶意漏洞利用程序的附件加密,并将解密密码隐藏在正文图片中一起发送到受害者邮箱。受害者收到邮件后根据图片信息可解压打开恶意文档。邮件过滤系统因不能解密而无法正确过滤邮件。利用图片密码识别技术,可以发现图片中的隐藏密码并正确识别,利用密码自动解压附件、过滤恶意程序,使攻击行为无处可藏。

2.4.3 图像对比技术

图像对比技术进一步加强了钓鱼攻击的监测力度。在商业钓鱼中,不法分子经常伪造银行页面,骗取用户账号密码。钓鱼网站域名在未被安全公司披露前,往往会有大量用户中招。图像对比技术采用类似网站快照的方式,对全球易被诱骗的正常网站页面镜像拍照,当识别出邮件中URL中内容与正常网站的相似度为99%以上,但URL链接不是真实的链接时,判定为钓鱼链接。

2.5 邮件附件过滤

网络安全攻防对抗不断升级,免杀技术、0day漏洞大量曝光,仅仅依靠传统的杀毒引擎很难保持对恶意附件的高查杀率。沙箱技术的出现虽然实现了一定程度的过滤,但绕过沙箱监测的技术也在不断出现,仍有大量恶意邮件样本绕过监测。为此,提出沙箱与机器学习相结合的邮件附件过滤技术。主要实现以下三大类附件的监测与过滤:

(1)脚本监测:采用基于机器学习的加密混淆监测模型。首先通过加密手法、混淆手段、提取分析技术抽取样本,学习训练形成脚本监测模型,将模型与脚本在沙箱中的行为监测结果结合,识别是否存在恶意行为。

(2) Office文档、pdf文档监测:系统进行文档监测时,除利用静态分析技术进行文档格式检查、威胁特征匹配、宏监测、恶意ole对象检查外,还利用了动态沙箱监测技术监控文档打开后的所有行为,判断是否存在下载执行、反弹回连、数据传输等可疑木马行为。除此之外,系统通过大量文件进行文档异常格式数据建模及训练,利用模型结合沙箱的行为监测技术感知威胁、监测未知漏洞。

(3)可移植的可执行( ,PE)文件监测:首先通过字符串分析、导入表分析、资源图标分析、编译信息分析、PE其他结构(包括DEP/NX /ASLR)深度分析等方法对PE文件综合打分,然后依靠机器学习算法优化权值和威胁阈值,综合评判实现威胁附件的发现与识别。对于威胁值高但无法确定存在威胁的文件,通过沙箱监控技术进行再次监测。全面监控文件、内核、内存、注册表的变化情况并建立各种行为的异常数据模型,通过机器深度学习方式识别发现威胁。此外增加沙箱逃避监测技术,防止恶意文件监测到沙箱环境后停止运行、逃避检查。

2.6 恶意邮件溯源

威胁情报平台积累了多个知识库,通过关联分析模型实现溯源,包含黑客工具知识库、黑客身份定位知识库、黑客身份定位知识库、漏洞库、木马库、恶意DNS库、恶意域名库、恶意URL库、黑客指纹库、黑客行为库、规则场景库等。比如黑客工具知识库能根据工具指纹识别攻击者使用的工具,用于判断攻击者的身份,因为不同组织不同地区的攻击者都有其自己的黑客工具。黑客攻击手法知识库,不仅能分辨出黑客的水平,甚至可能确定黑客的身份和组织。黑客身份定位知识库收集了全球大量黑客个体和组织信息,以及对应的攻击事件,当检测到攻击时,能自动识别是否为对应的攻击者,如果未识别,也会自动收集该攻击行为的指纹和手法,下次遇到同样攻击行为指纹和手法则会识别出来。除此之外,还可以联动其他安全厂商资源,关联攻击者曾在互联网上的攻击事件。

威胁情报平台数据来源分为三部分:第一部分通过全球部署的蜜罐系统长期收集攻击者相关的威胁情报。第二部分采用大数据采集技术进行开源威胁情报的信息挖掘和收集,由安全专家进行信息的筛选分析,最终整理形成有价值的威胁情报。第三部分是通过大量部署在客户网络的安全监测设备反馈形成的威胁情报

黑客工具知识库是威胁情报溯源云中心的重要元素,通过“三因子模型”定义溯源基因。“三因子模型”从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度定义恶意邮件的溯源基因。

每类指纹基因定义专属标签项,每个标签项下设定具体的溯源特征和指标。三因子模型共包含19个标签项,近百项溯源特征和指标。其中标签项的定义和分类如图3所示。

钓鱼邮件一般特征包括_钓鱼邮件的一般特征包括_钓鱼邮件的主要目的是

4.jpg

通过对黑客工具的识别,很大程度上可以识别攻击者的背景、身份。

3 系统实现与应用

恶意邮件智能监测与溯源系统的主要功能包括恶意邮件的监测、识别、过滤和溯源。系统包括三个主要功能模块:

(1) 网络流量中邮件数据的采集;

(2) 网络流量中邮件数据的分析与溯源;

(3) 恶意邮件查询和溯源结果显示。

其中,网络流量中邮件数据的采集由公司部署在网络关口的多个探针系统完成,利用探针系统可完成网络流量数据的获取。

网络流量中邮件数据的分析与溯源是系统核心功能,包括三个子模块:

(1) 邮件数据提取:从海量网络流量中提取邮件相关数据,重组邮件。

(2) 多级过滤引擎:融合多项邮件过滤关键技术和分类匹配算法、机器学习算法进行恶意邮件的检测、识别与过滤。

(3) 溯源分析模块:采用基于威胁情报的三因子指纹识别技术,进行邮件基因关联,识别邮件的真实来源和所属黑客组织。

恶意邮件查询和溯源结果显示使用BS架构,用户可通过浏览器方便地进行恶意邮件查询、样本获取和溯源结果查看。

目前系统已成功应用于网信办、公安部、海关总署等政府机关和国家电网、民生银行、中国联通等大型企业。在实际应用环境中,采用智能恶意邮件监测与溯源技术实现的“睿眼邮件攻击溯源”系统,成功识别、溯源多起境外黑客组织以邮件方式发起的APT攻击;帮助用户及时发现、应对、溯源针对内网用户的钓鱼邮件攻击、BEC攻击、ATO攻击等高级邮件威胁。同时,通过行为分析及时发现用户邮件的弱口令设置、账号受控等不安全因素,告警提示、预警风险,取得良好应用效果。

4 结论

为解决现有恶意邮件安全检测系统在监测能力和溯源能力方面的不足,本文提出发展新一代智能恶意邮件安全监测与溯源系统的技术需求。围绕识别APT、ATO、BEC等新型复杂攻击的恶意邮件监测要求,设计了一款包含多类检测引擎和多级过滤系统的智能邮件监测与溯源系统。系统基于获取的网络流量数据进行恶意邮件的分析和过滤,除具备传统垃圾邮件过滤功能外,还融合了异常行为分析、URL链接过滤、深度文本意图分析、图像识别、图像对比、加密附件解密、沙箱监测、威胁情报溯源等智能化邮件分析技术,能够更加智能地感知网络流量数据中的恶意邮件威胁、识别高级复杂邮件攻击,并且结合威胁情报溯源云中心提供的威胁情报数据能够发现攻击来源、溯源攻击者的身份或所属黑客组织。

参考文献