「高度」《人工智能标准化白皮书(2018)》发布(完整版)(7)
图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世 界的一门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括 图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等; 高层理解,根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态 估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统, 如刷脸支付、智慧安防、图像搜索等。 (3)三维视觉 三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获 取的三维信息的科学。三维重建可以根据重建的信息来源,分为单目图像重建、 多目图像重建和深度图像重建等。三维信息理解,即使用三维信息辅助图像理解 或者直接理解三维信息。三维信息理解可分为,浅层:角点、边缘、法向量等; 中层:平面、立方体等;高层:物体检测、识别、分割等。三维视觉技术可以广 泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。 (4)动态视觉 动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。通常动态视 觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提 取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。 (5)视频编解码 视频编解码是指通过特定的压缩技术,将视频流进行压缩。视频流传输中最 为重要的编解码标准有国际电联的 H.261、H.263、H.264、H.265、M-JPEG 和 MPEG 系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩。无损压 缩指使用压缩后的数据进行重构时,重构后的数据与原来的数据完全相同,例如 磁盘文件的压缩。有损压缩也称为不可逆编码,指使用压缩后的数据进行重构时, 重构后的数据与原来的数据有差异,但不会影响人们对原始资料所表达的信息产 生误解。有损压缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。 目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉 技术的发展主要面临以下挑战:一是如何在不同的应用领域和其他技术更好的结 合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以 超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算 法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需 要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法 的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采 集设备的计算机视觉算法的设计与开发也是挑战之一。 3.1.6 生物特征识别 生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别 认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册 阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人 脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征 提取技术对采集的数据进行处理,得到相应的特征进行存储。识别过程采用与注 册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取, 然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物 特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份 的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进 行比对,确定身份的过程,是一对一的问题。 生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指 静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、 语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证 技术,在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识 别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。 (1)指纹识别 指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集 通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别的过程。 (2)人脸识别 人脸识别是典型的计算机视觉应用,从应用过程来看,可将人脸识别技术划 分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要 受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响,在约束条件下人脸识 别技术相对成熟,在自由条件下人脸识别技术还在不断改进。 (3)虹膜识别 虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和 识别四个部分,研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的 主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素 遮挡,需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和 稳定性要求比较高;另一方面,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理 产生复杂形变,增加了匹配的难度。 (4)指静脉识别 指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的 近红外线有很好的吸收作用这一特性,采用近红外光对指静脉进行成像与识别的 技术。由于指静脉血管分布随机性很强,其网络特征具有很好的唯一性,且属于 人体内部特征,不受到外界影响,因此模态特性十分稳定。指静脉识别技术应用 面临的主要难题来自于成像单元。 (5)声纹识别 声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术 通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个 人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,常用的识 别方法可以分为模板匹配法、概率模型法等。 (6)步态识别 步态是远距离复杂场景下唯一可清晰成像的生物特征,步态识别是指通过身 体体型和行走姿态来识别人的身份。相比上述几种生物特征识别,步态识别的技术难度更大,体现在其需要从视频中提取运动特征,以及需要更高要求的预处理 算法,但步态识别具有远距离、跨角度、光照不敏感等优势。 3.1.7 虚拟现实/增强现实 虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合 相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近 似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影 响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交 互设备、数据获取设备、专用芯片等实现。 (编辑:ASP站长网) |