「高度」《人工智能标准化白皮书（2018）》发布（完整版）(7)

发布时间：2018-04-01 19:05 所属栏目：125 来源：站长网

导读：图像理解是通过用计算机系统解释图像，实现类似人类视觉系统理解外部世界的一门科学。通常根据理解信息的抽象程度可分为三个层次：浅层理解，包括图像边缘、图像特征点、纹理元素等；中层理解，包括物体边界、区

图像理解是通过用计算机系统解释图像，实现类似人类视觉系统理解外部世界的一门科学。通常根据理解信息的抽象程度可分为三个层次：浅层理解，包括图像边缘、图像特征点、纹理元素等；中层理解，包括物体边界、区域与平面等；高层理解，根据需要抽取的高层语义信息，可大致分为识别、检测、分割、姿态估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统，如刷脸支付、智慧安防、图像搜索等。

（3）三维视觉

三维视觉即研究如何通过视觉获取三维信息（三维重建）以及如何理解所获取的三维信息的科学。三维重建可以根据重建的信息来源，分为单目图像重建、多目图像重建和深度图像重建等。三维信息理解，即使用三维信息辅助图像理解或者直接理解三维信息。三维信息理解可分为，浅层：角点、边缘、法向量等；中层：平面、立方体等；高层：物体检测、识别、分割等。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。

（4）动态视觉

动态视觉即分析视频或图像序列，模拟人处理时序图像的科学。通常动态视觉问题可以定义为寻找图像元素，如像素、区域、物体在时序上的对应，以及提取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。

（5）视频编解码

视频编解码是指通过特定的压缩技术，将视频流进行压缩。视频流传输中最为重要的编解码标准有国际电联的 H.261、H.263、H.264、H.265、M-JPEG 和 MPEG 系列标准。视频压缩编码主要分为两大类：无损压缩和有损压缩。无损压缩指使用压缩后的数据进行重构时，重构后的数据与原来的数据完全相同，例如磁盘文件的压缩。有损压缩也称为不可逆编码，指使用压缩后的数据进行重构时，重构后的数据与原来的数据有差异，但不会影响人们对原始资料所表达的信息产生误解。有损压缩的应用范围广泛，例如视频会议、可视电话、视频广播、视频监控等。

目前，计算机视觉技术发展迅速，已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战：一是如何在不同的应用领域和其他技术更好的结合，计算机视觉在解决某些问题时可以广泛利用大数据，已经逐渐成熟并且可以超过人类，而在某些问题上却无法达到很高的精度；二是如何降低计算机视觉算法的开发时间和人力成本，目前计算机视觉算法需要大量的数据与人工标注，需要较长的研发周期以达到应用领域所要求的精度与耗时；三是如何加快新型算法的设计开发，随着新的成像硬件与人工智能芯片的出现，针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。

3.1.6 生物特征识别

生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看，生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集，如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集，利用数据预处理以及特征提取技术对采集的数据进行处理，得到相应的特征进行存储。识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取，然后将提取的特征与存储的特征进行比对分析，完成识别。从应用任务看，生物特征识别一般分为辨认与确认两种任务，辨认是指从存储库中确定待识别人身份的过程，是一对多的问题；确认是指将待识别人信息与存储库中特定单人信息进行比对，确定身份的过程，是一对一的问题。

生物特征识别技术涉及的内容十分广泛，包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征，其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术，在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。

（1）指纹识别指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集通过光、电、力、热等物理传感器获取指纹图像；数据处理包括预处理、畸变校正、特征提取三个过程；分析判别是对提取的特征进行分析判别的过程。

（2）人脸识别人脸识别是典型的计算机视觉应用，从应用过程来看，可将人脸识别技术划分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响，在约束条件下人脸识别技术相对成熟，在自由条件下人脸识别技术还在不断改进。

（3）虹膜识别虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和识别四个部分，研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的主要难题包含传感器和光照影响两个方面：一方面，由于虹膜尺寸小且受黑色素遮挡，需在近红外光源下采用高分辨图像传感器才可清晰成像，对传感器质量和稳定性要求比较高；另一方面，光照的强弱变化会引起瞳孔缩放，导致虹膜纹理产生复杂形变，增加了匹配的难度。

（4）指静脉识别指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的近红外线有很好的吸收作用这一特性，采用近红外光对指静脉进行成像与识别的技术。由于指静脉血管分布随机性很强，其网络特征具有很好的唯一性，且属于人体内部特征，不受到外界影响，因此模态特性十分稳定。指静脉识别技术应用面临的主要难题来自于成像单元。

（5）声纹识别声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配，常用的识别方法可以分为模板匹配法、概率模型法等。

（6）步态识别步态是远距离复杂场景下唯一可清晰成像的生物特征，步态识别是指通过身体体型和行走姿态来识别人的身份。相比上述几种生物特征识别，步态识别的技术难度更大，体现在其需要从视频中提取运动特征，以及需要更高要求的预处理算法，但步态识别具有远距离、跨角度、光照不敏感等优势。

3.1.7 虚拟现实/增强现实

虚拟现实（VR）/增强现实（AR）是以计算机为核心的新型视听技术。结合相关科学技术，在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互，相互影响，获得近似真实环境的感受和体验，通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。

（编辑：ASP站长网）