摘要:自今年起,物联网逐渐向AIoT方向迈进,IoT+AI势头正劲,随之AIoT的安全问题也被放在聚光灯下获得越来越多的关注。AIoT安全现阶段的生态格局、未来的趋势、技术上的突破与难点等将在该文中窥得一二。
聂科峰 百度AI安全技术总监
百度现在ALL IN AI,我们两大拳头产品,一个是阿波罗,一个是Dios,最核心的点都是在智能设备上落地。所以,AI+IoT我们定义为一个新的时代叫AIoT的时代,刚好也跟今天的主题有点像AI+终端。
IoT不是一个新的概念,20年前就有IoT的概念了,但是IoT一直没有真正的有一个大规模的爆发,即使2013年还把它定为未来改变生活的十大技术之一。但是随着AI的赋能,在近两年在IoT这块有一个非常大的爆发点,以智能音箱、电视、安防等等所有智能化的设备快速地在增长,我们能看到所有的产品现在有很多,有人脸识别的很多产品都在涌现。基于唇杆其的无人车很多大公司跟创业公司都在跟进。核心的问题在两块,一个是IoT本身经过这么长时间的发展,在整个传感器这块有了很大的提升。它提升的核心在两块,一个是更加小型化,第二更加廉价化。大家都知道无人驾驶最重要的是64路的激光雷达,原来都是到50万的成本。所以,在这样一个传感器的大的设备体量下我们很难把智能驾驶和无人驾驶快速普及。但是现在成本有可能很快降低道路及万块钱,还可能降到更低的价格。包括我们现在所有基于摄像头的,一千万以上的像素都非常便宜。所以,这个趋势是加速了IoT在传感器上的应用。另外,在芯片,我们知道IoT是非常小的系统,甚至单面机系统,芯片从原来的CPU到GPU,甚至到FGPI,到很多专有芯片的普及可以做的更小,运算能力更强,甚至现在有些可以搞一些深度学习的模型,这些也加大了IoT本身的能力,包括带宽,还有流量,这些都是属于整个行业的基础设施。
带宽在十年之前2G网络还在100K,到现在4G可以到100-300兆的速度,接下来5G应该可以上到一个G以上的速度,并且成本在降低,这些都为AI的应用打下了非常好的基础。同时,AI深度学习框架的成熟在持续发展,特别大数据从计算能力到存储能力,计算能力这块除了大家常见的云计算,现在发展最快的还有边缘计算,未来计算力的充沛为我们更广阔的利用AI提供了非常好的条件。同时,通过智能音箱、智能门禁、人脸识别这些核心场景的带动会更加加速AI的发展。我们会进入到全新的时代。
这个时代相对物联网有什么不一样,核心点就在于原来的物联网设备是以设备控制、设备联网为目的,加上AI之后的IoT,它将能产生将物联网设备带入以感知、理解和自学习为特征的智能设备时代。前段时间百度发布了一个小度在家,在人机交互对话的时候基于摄像头发现你是个儿童的时候,它会探测你的观看距离,给到智能化的提示。包括未来有可能基于语音的保护,比如我要控制空调,未来通过语音可以控制空调的温度,但是如果要做到更智能化的感知,比如你感冒时发的声音有可能能被识别出来,被感知到或者被理解到。这是我们看到AIoT时代的一个愿景。
越AI风险就会越大,这是一个伴随的过程。所以,这里对安全的挑战会持续提升。这里有几个主要的案例简单过一下,第一是去年小伙伴在GeekPon上对一个品牌手机人脸识别做破解,同时生物特征指纹和虹膜都有基于现在的认证或者U方案都有一些方法可以破解。第二基于ROT设备的网络攻击,2016年有一次大规模的攻击,导致域名服务提供商出现了中断,导致很多大的业务受到影响。第三,比较火的共享单车去年小伙伴在这块可以通过协议劫持共享单车锁跟服务器通信的密码和协议,可以改变状态等等。
第四,今年的一个案例,AI识别的图像上在人脸识别的状态下通过一些遮挡和欺骗让AI发生了完全错误的理解,被识别成一个限速60公里,这些问题有些是老问题,有些是新问题,安全隐患还是非常高。所以,我们要保证未来AIoT时代我们要做的工作或是非常多。
刚才我们提到它的生态会非常复杂,复杂体现在整个AIoT的安全是驾驶在原来AIoT的基础上,原来的AIoT有很大的问题它非标准化,我们知道IoT生态链非常复杂,有系统商、方案商和芯片厂商,可能每个都不一样。另外,它的计算能力比较弱,没有办法部署很多大规模的安全方案,再加上它本身黑产利用价值还比较低,整个AIoT基础安全非常薄弱,我们要把传统安全的思路和方法在这个场景下补进去,这是我们很重要的一块。
另外一块,AI带来的新的安全,我们用四个字理解叫“旧仇新恨”,基础的问题还没解决,但是因为AI又引发了新的问题,比如我们加了很多传感器,所有的AI设备基于大量的传感器作了自适应和自学习,传感器问题,从传感器到数据的采集,再到网络的传输,再到后台的存储,到AI系统里做决策,这个链路是一个新的基于数据的链路,这对我们的挑战会更加大。所以,我们两手都要抓。
刚才说从原来的互联网到移动互联网,甚至到现在的AIoT,每个时代都在不断迭代。我们的业务模型也在迭代,业务模型迭代导致整个我们安全的模型也会在不断的变化,从整个生态里角色来看,我们能看到这些角色会有一些变化,攻击角度方法不会有特别大的变化,还是从挖掘漏洞着手,包括系统漏洞、硬件漏洞、逻辑漏洞等等。所以,都是以挖漏洞为主。但是新的层面他们也更高的要求,他们更关注一些硬件的,前面的负责人在智能和安防提到很多基于硬件层面的安全评测和检测,硬件的东西是一块新的一块。包括基于算法,基于样本做算法这些新的要求。从防御的角色,我们对传统的问题可以用传统方法解决,包括我们在漏洞层面的防护,从协议的安全,漏洞的响应到二进制保护都是传统的方法,但是新的战场上我们要考虑到它的不一样性,它的计算能力会不会弱,在弱的场景下我们如何去构建更强的安全或者适合的安全。
一方面我们没有办法像PC时代构建非常强大的杀软、普通防御,但是另一个方面,我们在前期的安全方面,审计可以更加简单,因为它的业务模型比较单一,另外一个角度,我们的AI设备都是基于一个场景的设备或者基于一个多端互动的设备,包括现在所有的音箱也好、智能电视也好、门锁也好,要么基于家庭的场景,要么基于手机、智能设备、云端或者多端的通信,这样的基础上我们传统的是一台手机或者一个PC,现在我们可以在整个场景下都要去从点到面,单点突破都会导致未来的安全隐患。
用户角度来说,在AI时代最关注的除了之前我们非常担心的被偷钱,账号被盗,现在更重要的滚珠可能就是我们生物特征的数据的安全或者环境特征的数据安全,甚至很多物理安全,我们在无人车关注的最多的就是物理安全,智能设备出现跟人身相关的事情。包括前段时间我们也在看一个智能煤气灶的厂商,它可以远程点火,这样如果没有很强的容错机制安全保证也会带来非常恐怖的结果。
AIoT的安全,我们从三个角度来说,对攻击者提出了更高的要求,他原来只要关注一些漏洞挖掘,现在需要有硬件方面,甚至电路方面的一些要求,这样才能做到更强的攻击,甚至因为基于AI可以做很多算法层面、模型层面的漏洞和对抗样本,这对攻击者也提出了更高的要求,但是传统那套基础建好了,否则他用传统的方法软实力就可以。对防御从点防御到面防御,这个提出的要求会更高,在计算力的变化下,我们如何利用低算力的情况下做出足够好的安全方案。使用者就会更加关注隐私信息,包括刚才我们提到门锁。门锁我的信息很重要,除了我们语音被窃听的数据或者人脸被监视还有很多其他的数据,比如智能门锁每天几点开门几点关门都是属于我隐私数据,跟生活息息相关的,这些数据的安全都非常重要。
为了方便大家更好地理解新的时代的安全,我们整理了这个安全的框架。这个框架是从四个维度来看我们整个安全体系。从下面来看,终端问题非常大,因为现在的终端看上去是一个设备,它实际上在整个产业链里会拉得非常长,很多设备运行得软件是一个开发商,它运行的系统是另外一个开发商,芯片也是各种。所以,这个生态里设备的安全会从根本上形成我们未来安全的弱点。在网络传输层这里更重要的要考虑在新的场景下,我们现在衍生出很多新的协议,包括ZigBee等等,这些新的协议也给我们提出了很多新的挑战,我们在选择上可能更需要慎重。基于这些协议我们要使用一些加密的方案,未来有很的综合的权衡需要考虑。
数据处理大家都在说云管端的系统,从微软来看,未来的数据处理不一定是在云端,他可能更多是在边缘节点。所以,他最终回形成一个数据处理的网络,我们基于原来云端的认证授权管理甚至AI的一些点,在这个架构上额需要有更多的新的思路。数据安全和隐私,刚才我们提到非常重要的,随着欧盟TTPI开始启动,在这块的关注将会决定未来用户对我们设备和厂商的一个认可度非常关键的因素。
从这个思路上来看,我们从四个维度来看,设备、终端,未来的安全问题并不可怕,可怕的是在你没有一个很好的响应机制,因为漏洞随时会爆出来,没有一个系统是完全完备的。在AI这块我们希望它是一个稳健的系统,它能有一些容错机制,能够起到一个很好的决策中心的价值。数据从数据采集到数据的传输,再到数据存储和最终数据决策,它应该是一条非常坚固的防线,这条防线应该是未来面临最大挑战的防线。在传输我们希望能够用各种稳定的更可靠的传输的协议,用更可靠的传输的方式。
我们看一下刚才提大的几个点。最核心的AI的安全。从三个维度,从框架、算法和数据源都存在比较大的问题。框架的问题这其实是一个旧的问题,因为现在流行的框架更多的是传统运行型的问题,包括引入的第三方库,运行时指什么?包括类型安全,包括数据的输出,包括模型的缺陷,等等。去年发表一个报告主流的几个框架立以来第三方的曝出很多漏洞,有超过11个安全漏洞。腾讯去年在研究中也发现一个逻辑漏洞,这个逻辑漏洞的影响面还是非常广。这会导致通过AI的攻击最终接管AI的控制中心。这块我们还是要借助开的力量把模型做的更加安全。
在算法层面,我们能看到这是新的问题,算法我们其实不断地在打磨和调优,包括对话样本的训练。业界很多学者都想讲明白在AI去处理数据深度学习整个原理,但是有一个共识是整个AI训练的过程就是一个很盒,它充满不确定性和不可控制。基于这样的结果我们只能说它做出来是什么完全不可控。这是一个非常危险的事情。这里对数据的对话样本的训练或者数据模型的架构就非常重要。我们能看到在执勤也有一些报道中提到,只要经过一些像素级的改动,AI完全识别不出,在人肉眼觉得是一模一样的情况下,AI会判断完全不同的东西,包括我们刚才提到的“STOP”标志的事情,人脸可以识别出来,但是AI就识别不出来,这里的不可控就依赖于数据及到数据最后算法的优化要做大量的工作。
第三,数据源。数据源是攻击者可以用很多恶意的数据来使你的结果分类产生偏差或者你的模型识别这里会发生变化。这样的攻击是属于恶意构造攻击数据去改变AI模型。从这个角度来说,我们要从端的数据采集到数据传输到攻防整个链条形成整个AI保护体系。所以,我们把它定义为一个旧问题,但是是一个多面的战场。
刚才核心提到数据的安全,数据安全这块从数据来说我们可以分为云端数据、控制端数据,还有设备端数据,云端、控制端目前基本以设计和云为主,这块比较成熟了。核心的在设备数据这块,设备数据这块分为几个大类的核心数据,一个是感知信息,感知信息我们能够看到,也举了很多例子,包括他感知到你的声音,感知到你的行为或者人脸,甚至包括你的环境、温度,等等。这些其实都属于可感知信息,包括用户隐私数据能看到我们地理位置、电话号码,甚至刚才说到进家门的习惯或者是睡觉的习惯,喝水的习惯,所有跟用户相关的数据。第三类是健全的数据,用来保护我们整个通讯密钥的数据,凭证。第四是业务逻辑,包括我们所有系统或者软件的数据和保护。数据端的数据从攻击方式有两条主要的入口,一个是通过远程,通过云端或者网络来获得。通过设备的攻击如何拿到这些数据,从4个方面可以来看。第一是调试服务,我们团队做的很重要的事情,是所有接入百度AI的厂商我们都会看一下,甚至市面上流行的AI设备和智能设备我们都会做一些评测,目前的评测结果基本上在调试服务这一块大部分厂商都是没有解决方案的,这是当前非常大的一个难题。我们很多人会说调试服务我们可能需要维修的时候我们需要远程调试,我可能需要进场调试,但这块目前来看调试结果可以开,但是应该有更安全的体系,而不是调试接口完全打开,这个风险非常大。
第二,存储芯片,我们可以看到我们可以从Flash里提取到我们需要的数据或者我们系统的代码,这是非常危险的事情。我拿同样的设备,包括二手设备我们可以提取到用户存储在里的一些数据,这是非常恐怖的事情。所以,存储芯片是要做好读写的保护。
第三,芯片我们有一些防护措施没有做到位,二进制代码层面我们要做更多的保护,包括你可能从Flash上提取不到你的硬件,但是我可以通过其他拿到你的我就可以做你的溢价分析,可以做很多事情,这还是属于静态的分析,包括安全启动,包括代码加固应该都是可以做的。假如固件也没有防止住,把系统跑起来了,这个时候我们能做的事情就是要对整个系统运行,特别是涉及核心数据的运行要做健全,要做认证,要做密钥机制,基于ID设备的,或者TrustZone技术的应用。我们从所有的物理数据到用户数据整个的防护体系。
这是防止终端数据被拿到。数据可能没被拿到,但是我们还要传输,对于传输来说,传输安全几个大的点大家也都了解。所以,好的方案应该是双向认证,双向认证就是设备端接受服务器的指令需要做严格的健全,这样防止中间人通过网络劫持向设备端发不受控制的指令,比如刚才提到的车发一个刹车指令,比如开锁指令等等。对于服务器来说,他要认证设备端发给他的信息,保证请求的服务是他可服务的设备。还有一个很重要的作用,他也能够清洗掉未来向服务端发起攻击的人。目前看能用双向认证的产品现在主要还是用在车的认证这块,双向认证是必需的。但其他的设备之间现在还是用轻量级的方案,包括现在在做一些基于SSL加密的方案。从我们之前评估的设备来看,有不少设备确实也用了SSL,但是是个伪SSL。为什么?它在端上没有做正负校验,这其实就是没有任何作用。同时SSL也不能解决DNS劫持的问题,这里需要有一套组合拳去做。包括去年也爆发一个大的漏洞,我们大家也都知道是基于滴水漏洞,影响非常广,这里面未来的风险特别高。从那之后,包括谷歌,包括百度也都在做更内存安全的TSL实现。我们有一个开源的,这样实际上可以更大程度地减少未来内存方面的不确定。还有更多的设备基于单片机的怎么办?它至少数据要加个密,但是从之前来看,很多的完全没有任何加密的措施。所以,这块至少你先要有加密。另外,再去考虑到密钥的管理。之前摄像头有个漏洞它的密钥,它所有的设备都用了同一个密钥,其中一台设备,它所有的设备都是这样。所以,我们希望做到一机一密。
最终看一下端的安全,我们内部不断在推行所有设备和我们智能设备覆盖的终端上来做这样一个规范性的动作。因为安全是随时发生的,楼栋是随时可能曝出来的。我们更重要的是把整个响应机制建立起来。响应机制事前每个设备我们AIoT设备未来有更多的行业标准或者厂商有自己对安全定义的标准出现,包括级别的定义,包括修复的规范方式,未来可能从行业,从厂商都有约定。从事中响应有几个方法,包括固件包更新,包括召回。事后还做很多总结性的工作形成一个闭环。但是目前所有的智能设备唯一可以依赖的手段就是OTATC,作为所有设备问题处理的唯一的方法,这个也会存在很多风险。目前设备这边基本都会有OTA,有些第三方的,有些自己搭建的。对于OTA作为整个AI设备的生命线这块我们要更加关注保证它的安全,否则你的设备出去之后有可能未来变成别人的设备,这是一个非常恐怖的事情。这是从底层的整个系统。
刚才看到家庭摄像机,基于这样高隐私的产品,40%的家庭摄像机软件更新时没有使用及密。所以,我们OTA一定要加密。加密和性能安全可能会有一些平衡,但是在OTA的加密是一定要做的,因为决定了整个设备的生死。同时,签名要做强校验,包括签名的完整性校验,确保我们克羅地的数据包是可信可靠的。未来还有一些方案会引入一些设备指纹,甚至把这个包拿到另外的设备上运行。在策略上我们既要灵活,要去做一些修复。同时更重要的是本来线上的版本都是OK的,但是把设备降到一个有漏洞的版本就可以完全控制这套设备。从这个来说,OTA这种方法,目前来看整个行业里绝大部分设备都是在安卓4.4版本都非常老,有很多设备漏洞完全没管。这个原因就在于整个行业里问题流程非常重。如果一个是系统漏洞,这个系统很大程度上是芯片厂商和系统厂商提供的,但是中招的是设备厂商,从问题的发现到标准系统的态势发布再到厂商里这个流程非常长,要用厂商推动方案商,方案商再推动系统或者芯片厂商做更新。现在有很多问题没有得到修复或者没办法推进修复。
另外一个角度来看,AIoT的非标准化导致问题是非常碎片化,它系统版本非常多样性,从PC到移动,每一个时代的碎片化都在加重。AIoT的问题会更加严重,甚至一个厂商都会有多个针对不同芯片或者不同产品的系统或者版本。同样一个问题出现,你可能要对这批设备全部升级的话,基本是非常不现实或者非常低效率的。行业也在推热修复的技术,热修复很好解决了两个问题。第一个是自适应,自适应是在系统底层通过符号评比了系统之间的差别,然后可以做到一个补丁兼容更多的平台。另外,热修复这个通道只要打进去之后,任何一个环节都可以直接运营热修复的机制,可以极大简化或者加速未来安全响应的速度。
刚才跟大家分享了AIoT时代涉及安全的很多方面,百度也做了很多尝试,一些问题我们业提供了解决方案,包括刚才提到在端上我们有基于卡马的热修复技术,在全球也是非常领先的技术,现在在华为,包括很多其他智能设备领域开始用了,包括安全OTA也开始在智能设备里用。基于内存安全的MesaLink,基于DNS反劫持的都会形成一套方案在未来运用,算法模型我们提供了一个样本工具包可以帮你训练你的模型,使你的模型更加坚固,完善你的模型,同时也可以研究如何构造样本。基于AI、基于终端、云计算和设备我们整个的方案,也希望能跟各位安全的同仁一起打造更安全的AIoT时代。谢谢大家。
下一篇:袁琦:5G终端安全技术发展趋势