中科院黄凯奇：智能时代的视频监控发展

责编：rhliu ｜2016-11-14 15:54:34

黄凯奇：非常感谢大会的邀请，感谢主持人的介绍。今天我的报告是关于智能时代的智能视频监控技术。今天我的演讲虽然和网络不是那么密切，但是和人工智能和视觉是比较相关的，所以我想应该是大家从这上面还是能得到一些启发的。下面开始我的介绍。

我们为什么要谈智能视频监控呢？我们知道里面有三个词非常关键。

第一是安全，安全是人类的基本需求之一，是根据马斯洛的理论人的五大基本需求，安全是排在除心理需求之外最重要的需求之一。所以安全是非常重要的。为什么说视觉呢？我们知道视觉主要是通过眼睛获取外部信息，我们的视觉也就是眼睛能获取外界80%以上的信息，这么多的信息通过眼睛获取，怎么处理好这些信息是非常有必要的。

当然，紧紧依靠视觉，仅仅说安全的重要性，仅仅说通过视觉能获得这么多的信息还是不够的，因为我们需要很好地处理它，如果对大的信息不能有效地处理，最后安全是无法保障的。因此我们就要提到智能的概念，如何从智能的角度对视觉的信息处理用于保障安全，也也是智能视频监控的一个初衷。

今天的报告我主要从三个方面给大家介绍一下。首先讲讲兴起，来溯源说说它为什么重要。其次讲讲技术现在的现状，最后还想讲目前来到智能时代，有很多的东西都加以改变，我们这个技术在智能时代有什么样的感受。

监控系统尤其是监控系统大家也听过，有没有想过它从哪儿来？我查过相关的资料，万人球最大的好处是球放在房间里，在房间的人能看到房间周围的人的运动情况，其实就间接地起到了监控的作用，为什么叫万人球呢？传说这个球会容纳1万个人，这是对玻璃制造技术的很好的诠释。

监控技术发展的概念来讲分为三个阶段，刚说的是用人来看，人获取信息人来做决策，以前的监控最早的时代的“锦衣卫”。还有我想看得更清楚一些想怎么办呢？我们用机器眼也就是摄像头来做这个事。但这个发展到了一个阶段，在80年代、90年代的时候，随着技术的发展包括模拟和数字技术的发展，主要是摄像头技术的发展产生了这样两个技术。

到了90年代也就是2000年之后，随着初期的人工智能的技术的使用，其实不断地从五几年开始在演化，到了90年代时候有一些在这方面的应用。比如说我用计算机，加入了算法的计算机对采集的视频信息进行处理，这就是监控的概念，这主要依赖于视觉技术。

所以对智能视频监控做一个定义，就是利用计算机对监控摄像头获取的视频推向进行自动内容的分析合理解。它的作用是为了对异常进行判断并给出报警，这是应用新很强的，但相关的技术主要是智能技术。

它的产生主要是和国家需求是相关的，我们为什么要用锦衣卫国家和皇帝有需求，现在我们国家的各种反恐和公共安全的事件频发，这是早期的现象。为了解决这个安全的需求，增加摄像头是一个大家都能想到的手段，这个摄像头越加越多。

早期来说是小超市，基本上都覆盖了，包括中国在2015年的时候在公关安全的领域用得上的已经超过了2000万，加上其他的交通摄像头就更多了。所以有这么多的摄像头，包括带来的问题，再包括到存储，存储是一个大问题。因为存储需要有硬盘，而且存的话不能只是存一两天，按照要求是存一个月，成本是一个大问题，成本很高。

另外关键的问题，没有数据我想获得数据，但关键是有了这么多数据怎么办呢？比如说这里有一个图，表明人在看一段时间之后，也就是说在12分钟之后，注意力会下降。到了只有20多分钟的时候，基本上是到了遗漏率95%。也就是说你看着我在看，我脑子里是没有这个概念，看了等于没看。所以在这种情况下，数据越多对人来说就是数据垃圾，它不是一个数据情况的问题了。

如何来解决这样的问题呢？我们希望用电子眼来代替眼睛，用计算机的智能技术来代替人脑，就产生了这样的智能视频的技术，这个技术在业界早已得到了重视了。

这是几年前的一个市场调研，其实这个机构叫IPVM它是集成了市场、集成商和用户需求的高端的调研。2012年的时候认为是视频监控技术的突破口，认为我Video analysis又做了调研，包括了集成方和市场的调研，一个是制造方、一个是集成商的结果。中间其他的技术可能有差别，可是最主要的技术上大家达成了共识，这个是非常重要的，前面把技术的重要程度梳理了一下。

这个技术如此之重要，如此之有用，怎么做的呢？或者说现在做了什么样进行了简单的介绍。我们知道既然是用了电子眼和电脑，特点肯定跟人相比能做到7×24的常识，因为只要有电话就能做这个事，这样而有效。涉及到核心技术，这个技术的背后需要进行分析。

我们看所有的技术发展，比如说80年代模拟视频监控技术的发展，是微处理器的技术，数字压缩编码技术发展到数字视频监控系统。数字监控得益于两类重要的突破和发展，一个是计算机视觉技术，实际上它是信息获取的技术，可以说是感。

另外一个是模式识别技术，它的目的像人脑一样能够对信息进行分析，能够给出一些模式，所以它可以被认为是一种“知”，所以我们说的感知技术，说得比较多，但如果进行细化的话，可以完成这两种技术。

当然这两种技术视频监控从2000年之后，尤其是2005年的时候，国外的公司进入中国市场，其实一直在凯西，但他一直没有走向大规模的应用，因为随着技术的成熟度在不断地应用，尤其是人工智能技术，或者是机器学习技术的突破，对这个技术还是有帮助的。

本身智能视频监控分为四个大的框架，包括检测、跟踪、分类和行为分析等等，我们刚刚说了，它的目的就是从它获取目标、发现行为进行报警。总的来说就是用目标在哪儿可以用检测和跟踪来概括，分类其实是谁的问题。异常行为分析是说你在干什么，有了行为我还知道这个行为是不是异常。下面我对关键技术的几点进行简单的介绍。

运动目标检测也就是目标在哪儿，我们要知道一个图片中的目标在哪儿对人来说是非常简单的事情，但对电脑其实是不容易的事，因为它非常复杂。

什么造成了复杂性，包括了亮度，左边的这个图像汽车是一个夜间的图像，移动的目标实际上是人都无法发现这个目标真正在移动，计算机能发现这个技术找到一个目标在移动。包括了右边像是一个交通场景，其实包括了车辆，别看现在没有，来了以后有影子，监测出来到底是哪个，这是非常难的一个问题。

其实有一些简单的思路，这些思路大家听了以后知道概念就可以了。所谓的物体监测无非是两个东西要做，第一要把原始的图像获取，第二是背景获取，第三是前景，所谓找出来以后两个进行比较，我就能把这个目标给找出来。

左边是输入图像，所谓的图像序列就是做背景建模，万变不离其宗，核心的思想就是这样的，交流的时候说指导原理我想是很容易理解的。所以对背景进行建模，是运动目标监测的技术，难点在于不漏不撤，要监测是很简单的事。可是能做到找的目标不漏，假的目标不错是不容易的事，这是试图在解决的事。

运动检测算法我们做了调查，影响的因素非常多，到底哪些因素的影响比较大，比如说正常情况下，效果能达到0.8，精度可以达到0.8，F因子是一个描述值，编码、复杂背景低照度、光线和噪声的情况下，效果是怎么样？有人经常问我们，我们经过压缩了，会不会对监测有影响呢？

实际上这就是一个评价的结果，发现视频编码的情况下影响还不是很大，影响伟大的是夜间的噪声，本身天就黑，加上又有噪点影响是很大的，这也是很容易联系起来的。因为网上有很多的噪点不容易区分哪些是真正的移动目标。所以知道了这个，就能根据这个情况做一些选择，看哪些因素是最重要的。在哪儿？

其实不仅仅是当前的位置，实际上我还想知道它从哪儿来？到哪儿去？这就是一个连续的效果，这是一个跟踪的例子，途中的这个目标从左边过来一直到那边出来一条轨迹，就是跟踪的效果。这个还是比较好理解的，跟踪也是同样的问题，除了目标检测的问题，碰到的光照和遮挡的问题，是比较重要的问题。

比如说一群目标，单个目标肯定着形变，多个目标有人挡住的情况下，怎么把它有效地检测出来，这并不是一个很容易的问题，比如说一交错，这个目标还是能框出来，这是难点的问题。

同样我们也对这类算法做了评价，哪些因素对它的影响大一些，比如说简单的用姿态、光照，运动模糊还有部分遮挡等等，如果把尺度姿态、光照、遮挡都加上去的话，这种情况下效果就非常多了，又有光照变化，又有遮挡，还有一些所谓的非刚体，汽车的运动就是刚体的，熊猫的运动就不是刚体的，从一个长方体变成一个圆球要识别就比较难了。这是跟踪的例子。

跟踪还有一个问题是我们展示的效果是单个摄像头的跟踪，实际上是多个摄像机的前提下，比单个更难以获取，比如说人的变化，姿态和视角的变化比单向又难得多，这样三个图，不同的摄像机下给出不同的ID和身份。

像张三在这个大厅里是张三，出了这个大楼还是张三，所以要做的这件事其实是很难的问题，因为我进门的时候可能是正面，我出门的时候可能就是背面，我下楼的时候也许是从上往下开了，难度也是很大的。这是3D相机的例子。

跟踪同样也有一些效果，目前学界在这块的研究也是非常难的，做得最多的摄像机其实就是在5、6个摄像头的研究的层面，真正还做不到大规模的应用的效果，因为摄像头越多、目标越多效果越差。有了目标的位置，知道了目标在哪儿我们想知道目标是谁？

通过身份认证的想法更细更精度，首先是对人的分辨，但对人分辨之前的知识场景里可能还有更多的类别，比如说还有骑自行车的人，还有其他的目标等等，我校把类别分析出来，这就是所谓的分类，比如说我们在这个交通的场景中有骑自行车的人，比如说P就代表了行人，B是代表了汽车都分析出来才能做相关的认为，人走马路和汽车道是不合法的行为，人上了道也是一样的。

图片分类是计算机视觉近期发展最快速的阶段，近十年来，计算机视觉在图像分类的研究上是非常热的，有各种标准的竞赛，包括大规模数据竞赛、Pascal，包括非常火的深度学习都是比其他数据库好了很多的性能，得以一战成名。

随着类别和数量的不同，我们这个场景里有多少类，是人还是其他的物体要进行分类，还有那一类的数目有多少，人有多少，物体有多少，这两个都是重要的指标。因为我们这样的大规模的数据库，数据规模是1400万，但是真正用到测试的话就没有那么多了。

这是大规模数据库的错误率，早在2010年还没有正式作为单独的竞赛，一直到2015年到3.57，认为错误略超过了人眼，这是一个比较好听的噱头，可是我个人认为仅在这个数据库而已，如果说要超过人类是不可能的。

有了类别，我们区别出是人还是车还是动物还是其他的物体，需要细分ID是什么？具体到人包括了人脸、步态、声纹、，它有一个performance的表述，所有的视觉的生物特征随着距离的增加效果是越差，最近的是越好的，指纹接触是最好的，步态听起来很炫，听起来也很好，实际上效果是最差的，或者说基本不能实用的。

这是性能的比较，已经做了一些更新了，人脸、虹膜、步态等细节。目前正在做的视觉的更重要的是从配合式的视觉的生物特征走向非配合式的，除了我们周围的监控场景下的，一个人过海关很容易对他人脸进行识别，因为要进去必须要正视角，如果不这样就过不去。

但如果在真正的场景下是做不到的，不能让他知道我在拍他。有了目标我们要知道它是谁，干什么，我们要知道行为，有单人的也有多人的，比如说单人的行走、摔倒还有其他的行为数据。多人更复杂一些，行为是非常复杂的定义，被认为是和环境相关的。

为什么和环境是相关的？可以看到左边和右边，如果从行为来看是一样的，我们认为是打架的行为，或者说特征表达上是一样的，可是行为识别是不一样的，左边是一个真正的打架，而右边是在篮球场的防守的动作，这一定是和环境相结合的。

行为比物体类别的难度更大，因为这涉及到视频，难度是很大的。真实情况下的、监控行为下的多个视角的行人识别的性能是非常低的。在行为数据库上实际上是非常差的，这说明我们的研究是大有提升空间的。尤其是这样的情况下，这样一个密集的情况下，现在的研究重点已经从单人、多人向密集人群的行为识别来聚焦了。

前面花了一些对兴起和现状做了简单的介绍，最后亿九是智能时代视频监控的发展以及走向做一个个人的看法的阐述。

智能视频监控技术，如果只是从应用剥离开来，从背后来看可以分成两个维度，横向是信息获取、存储、传输、处理的维度，这个大家很好理解，如果说从纵向的角度发展是从模拟化、数字化、概念化、智能时代、语义化是连续的概念的描述。里面核心的是什么？

有一个核心在支撑它，数据的增加在后面支持，早期是几个小时模拟的，到后面是GB、TB、PB、ZB级的，有理解和数据的支撑。发展到现在智能时代的来临。为什么说这样，大家用的比较多的两个例子。

一个是大家常见的例子也就是AlphaGo的例子。因为它击败的人类的棋手，这个被认为是里程碑式的技术，不仅仅是民口，军方也是很重视的，这之后的6月份，智能程序阿尔法在空战中击败了空军上校驾驶的战机，是真正的人机对抗，后面这个比前面更震撼一些，前面是有规则的，可是后面这实际上人的变化，尤其是训练的人的变化能对抗起来是非常难的。

所以说人工智能的发展往下走，大家一直在想走到哪一步。人工智能走到现在Kurzweil说，他认为人工智能在2025年到2029年人工智能能达到和人接近了，再过20年就能超越人类，其中还有其他的技术介入，包括认知科学和量子计算。

人工智能的支持下，包括智能穿戴、军用机器人、无人驾驶、智能监控都能得到极大的飞跃。核心技术的发展是对我们应用技术的发展起到了巨大的驱动的作用。

我们看看智能时代的监控模式，我们认为已经从传统的分布模式、简单的分布模式向认知动态的模式进行颠覆性的改变，其中核心的技术包括了并不是简简单单的信息获取，还包括了环境的感知、自主决策、迭代实践的反馈等等，核心的算法我不细说了。

现在我们正在做新一代的智能视频监控系统，它被认为所谓的透彻感知，实际上是国家重大专项的支持，所谓的透明空间的感知，实际上是希望通过多向级的协同，实现各个场景的应用，从小范围的人到大范围的场景，一直到更大范围的空间的理解。也就是说包括了研判，包括了发生或者是没有发生的事情进行研判。

总结一下，我们认为智能时代给我们带来了很大的机遇也带来了很大的挑战，总的来说我们还是能从智能时代的技术，如果合理、理性的认识他，并正确地使用它还是会给我们的生活带来很大的便利。谢谢大家！

上一篇：清华郑方：声纹识别——无线互联网环境下访问控制安全的最佳解决方案

下一篇：WebRAY权小文：产品就是工程师的尊严