翁志:各位下午好,我今天给大家分享的题目是大数据分析在电商安全中的应用。
让我们回顾一下Internet的发展,自1990年起到现在近30年的时间。从我们的网速来说,在座的极少数人用过原来的…1.4 56K,还有17.4K的上网,后来进展为SDN,主要是公司使用,家庭2000年的时候有了…,在国内用得更多的是ADSL。现在网速已经达到了一个…GB的速度,用的是…,国内HNT提供1GBS的网速,能够让大家接入。
编写,Internet发展,不得不提雅虎,还有原来老的公司网景,都为Internet的发展做出了很大的贡献。网络协议从1.0,2.0进入到3.0的时代。从我们互动设备来看,大家原来都用的是Desk lap,现在更多的是用手机,用Tablet,还有PAD,国外学校更多的是网本进行网络的连接,以后更多的是LOT,Internet进入了中国的方方面面。
数据的变化,原来大家存储的数据都是写在纸上,一个纸上500个字。现在我们很多的数据是放在了网络端,放在了云上,数据都是以什么样的数据数量存储的?原来的一个小小的软盘是512K,现在我们每天生产的数据都不是用T做存储单位了,每天电商公司处理的数据都达到一点多…,什么概念?那就是10的30次方。
我们面临的安全的威胁,在PC时代主要是为了杀毒软件,Symantec原来就是做杀毒软件的。有恶意软件的攻击,包括信息的盗取,身份的盗取,但是云上我们受到威胁的形式已经有了很大的变化。刚才大家讲到网络劫持,包括DNS劫持,包括内容的劫持,包括流量的攻击,像SSS,还有注入、旁路攻击,还有验证攻击,各种各样的攻击都是为了盗取用户的信息,因为我们信息完全是在云端存储,安全的问题变的越来越严重,没有一个很好的安全大家对于网络的信任就是缺失的,这肯定也会影响我们商业的运作,也会威胁到每个人的信息安全,每个人信息的丢失。
看一下现在网络上的数据安全是怎么进行保护的呢?从架构来说,现在进入到了一个云时代,我们云架构是分布式的架构,数据分布在方方面面,分布在各个不同数据中心,不同的体系当中。这就为我们的数据安全提出了一个更大的挑战。因为保证各个点的数据的安全比保证一个点的数据安全相对来说要难很多。
原来的数据都是放在冠形数据库中,像IBM都有一系列的安全保证机制,现在的数据都是用分布式,Hadoop、Big table这些分布式的数据存储中,也还包括一些非结构化的数据,这些数据没有一个统一的安全认证方式,这对我们的数据保障是一个很大的挑战。
数据隐私,原来数据存储数据分析也有一个认证的问题就是谁能使用,让这个数据在规范的环境下使用,包括数据加密,网络传输中的数据加密,数据中心内部数据也要有一个加密的机制。比如我从一个机器访问另一个机器,通过RPS方式还是什么方式,这些数据如何传输保证安全都是我们需要考虑的问题。
包括存储,我们数据放在硬盘上是否应该是一个加密的方式。对于一个负责任的电商来说都是需要考虑的。
我们的日志,每天产生的数据量,帮我们回溯到原来的某一个时间点,是非常重要的一个财富。对于日志的管理会帮助我们在安全上来追溯以前发生的问题。
数据审计也是大家需要着重的地方。数据完整性,包括点对点和数据过滤,大家在工作中遇到了。
我们有各种各样传统的安全实现方式,这些方式是否对我们现在来说,是否能防范一些遇到的安全威胁呢?我们说应该是没有的。现在的安全防范体系需要全局立体的,而非局部单一的,有些数据是带着DNA的,这个数据怎么进行分析,能不能知道这些数据中是否有数据泄露的危险,我们认为通过一个单点,通过传统方法已经远远不能满足我们的需求。
如何打造一个基于数据分析的方法的安全体系?这是我今天主要跟大家分享的,我们是如何进行数据保护的。
数据在我们的体系中流通的时候都会留下他的踪迹,我们可以帮助用户进行一个数据管理的最主要的方式,我们把这些数据进行收集,包括日志,包括方方面面来的信息,这些信息我们进行一个大数据的分析处理,能够知道什么地方会有数据安全的隐患,比如我的流量异常,这个流量异常来自哪些IP,通过一些细致的分析,我们知道这个流量是否是一个正常的流量,比如我们经常会遇到的爬虫流量,它可能会经常来爬我们一些节点的某些关键信息,这些信息是机器行为和人工行为是有差异的。所以,我们会用数据分析的方式进行一个甄别。同时,一个电商,我们对于用户数据是非常非常重视的,提出要提供一个非常严格的保密和安全防范的措施。
还包括我们的定单,定单泄露也给不法分子可以利用进行欺诈,这都是我们天天遇到的问题,也是我们必须要解决的问题。包括账户,有黄牛,还有其他各种各样的对于账号体系的攻击,我们怎么来进行一个完善保护,这是我们经常会遇到的问题。这些数据我们会做一个综合分析,这个分析的方法有基于规则的,也会有基于机器学习的方式来做。
归根到底,我们需要的是一个原始数据,来自于日志,来自于系统的监控数据,还来自于我们对社会上流露出来的一些账号信息进行的管控。当然,对流量的攻击我们会进行甄别,不仅保护我们系统,保护我们系统的后台,减少不必要的处理能力的损失。同时,降低我们系统的抗压。
爬虫风控系统,对于爬虫,对于我们一些机器流量,我们都会进行一个过滤。
如何进行数据分析决策?最重要的还是数据,数据我们会进行有序的处理存储,进行分类,变成一种分布式的方式,便于我们的数据处理,分析要有建模,我们有各种各样的分析手段,包括传统的分析手段,也包括机器学习的手段来进行分析,来甄别他是否是一个有害流量或者是一种攻击流量。
产出就是给我们生成一系列的决策,指引我们如何进行应对,也会对未来进行一个预测,比如对未来流量的使用,对未来流量系统能力的分布都会有所帮助。
看一下日志,日志是这个系统中的基础,因为没有日志收集让我们很难对我们的系统有彻底的了解。所以,日志收集包括方方面面,大家看到可以从监控的服务器上收集数据,应用系统也会吐出日志,根据大数据存储的日志都会进行收集,还有网络设置日志,这些日志的收集可以很好的帮我们进行原始事件的回溯。所以,日志是非常重要的,有很多厂商为了性能的原因把日志关掉了,其实这是对一个系统的威胁。我知道的这些大型的比较有实力的国外的厂商他们都会开着日志,性能上会完完全全考虑到日志对系统的影响,而把它变成系统周期的一部分,而不是当成一个额外的部分。
提到HTTPS,从用户的客户端到我们的服务器端,会进行一个数据认证,目的在网络上数据不被劫持。内部RPC加密,在数据传输当中就可以保证数据的安全性。同时,在数据做盘的时候我们封盘进行数据加密,敏感的数据必须以加密的方式进行存储,存储一个密匙系统,每次都会进行一个日志系统,可以追溯到谁使用了这些敏感数据。出现问题可以把问题局限在一个比较小的范围内。
还有是认证,认证和授权。我们服务器可能被攻击了,发生的信息就不会是一个受到保证的,我们对服务器做一个认证,这个认证就能保证我服务器使用当中有一个分析,如果服务器步建立具备条件下这个服务器是不会被我们进行使用和进行数据传输的。应用也是一样,每个应用有一个认证的体系,谁能进行数据的分发,谁能进行数据的接收。
DDoS流量攻击,对于各种各样的DCP、UCP的流量的攻击我们可以进行清洗。
漏洞扫描,大家知道XSS的注入对我们系统来说是一个很大威胁。所以,产品上线都会进行一个扫描,这也是很多电商,我们友商天天做的工作。包括弱密码,对用户的行为会进行甄别,对弱密码的用户会进行提醒。权限的检查,为了防止越权的使用,我们也会进行权限的检查。还有端口扫描,看有没有信息泄露的可能。
风控体系更多的是基于电商来说很重要的一个方面。因为我们为了用户的信息安全,我们会做账号和定单的,还有各个层级信息的管控,管控系统之间是打通的,一旦出现数据泄露的时候,我们会进行一个非常迅速的反馈,我们出台相应的策略来帮助用户减少损失。但是我们知道国内对于账号进行切入,还有对于定单进行非法使用的情况。所以,我们也在这方面做不懈努力,需要大家共同来配合。
网络劫持,大家已经谈到很多了,从胡主任角度来说,像DNS可以进行信息的劫持。在我们天天的任务中都能够发现到。我们也在全国各地有买点,发现在某些地区是有这种情况的,我们的DNS被进行了地址的改换,还有网络上网络包,由于不是加密的方式,也有被别人替换的情况发生,这也是我们生活中和工作中要进行保护的,保护的方法大家也很清楚。
我们现在也在致力于做全网站的HTTPS,也会在不久呈现给大家。
开源软件的管理,开源软件为Internet的发展做出了非常重要的贡献,很多电商公司都是用各种各样的开源软件。开源软件的好处是让大家能够迅速的搭建我们的系统,但是由于它是一个公开的方式。所以,很容易被不法分子加以改造进行利用。对于这方面我们会进行管控,需要升级我们都会做立即的处理。所以,对于软件的管理也是信息安全中的一个必不可少的部分。
系统安全的监控,这方面包括报警,如果发生数据侵袭的时候,我们系统可以可靠稳定的运行。服务器我们都有温度、湿度各方面的监控,这也是为了使我们的底层的物理机制能够进行一个很好的工作状态,保持一个很好的工作状态。
应急响应,我们有专门针对应急事件进行反应的中心,也是和我们友商BAT都有关联,目的就是使大家情报交换,共同一起来维护Internet的数据安全。
还有安全的知识培训因为对于大型的电商公司来说,我们每天都会有新的员工的加入。在研发方面,每个人的层次对安全理解不太一样,我们通过安全培训的方式让他们注重安全,把安全的意识放在他每天的工作中去。所以,我们会做这方面的认证,做这方面的考试,使我们的程序员达到上岗标准。所以,安全是他们上岗一个必备的标准。
这就是我想跟大家分享的一些我们在电商安全方面的一些积累,也希望能够和大家携手一块把我们互联网上的信息安全保护好。谢谢大家。