当前位置:首页 > 新闻中心 > 行业动态 >

专利深一度|计算机视觉技术专利分析

2024年05月14日 来源:

人随着深度学习的快速发展,计算机视觉与语音识别、自然语言处理共同构成了人工智能的三个关键应用技术。计算机视觉赋予机器感知和认知世界的功能。


基于行业发展需求,国家知识产权局专利分析普及推广项目人工智能关键技术课题组从计算机视觉技术专利整体现状,智能安防、自动驾驶和医疗影像三大应用领域专利布局,对计算机视觉技术进行了深度剖析。


专利整体现状


受益于深度学习算法的优化、计算能力的突破以及数据的积累,计算机视觉技术从2012年开始快速迭代,不断推陈出新。2012年,ImageNet大规模视觉识别挑战赛中,冠军团队使用深度学习算法将识别错误率降低了10%,成为影响人工智能进程的里程碑事件,从此计算机视觉技术商业化落地能力不断提高,迎来了突破性发展。

 

计算机视觉技术专利分析


伴随着技术的创新与突破,全球计算机视觉技术专利申请量开始激增,呈现指数增长,从2010年的200多件激增至2016年4000多件。中国近年来专利申请量连续取得世界第一,再加上中国对人工智能技术的重视,又是世界上最大的目标市场,因此中国以67.7%的占比,排在目标国申请量的首位,美国以近22%位居第二。


计算机视觉应用领域。


01、助力智能安防


随着安防产品应用领域的不断扩张,传统安防技术的计算能力不足以应对日益增长的视频和图像数据,识别效率和识别准确率也阻碍安防产业进一步发展。计算机视觉技术中人脸识别技术具备超越人眼的实时识别准确率,与安防使用场景契合度较高,已成为智能安防的关键技术之一。

 

计算机视觉技术专利分析


智能安防中的人脸识别算法经历了早期算法、人工特征+分类器、深度学习三个阶段。早期算法有基于几何特征的算法,基于模板匹配的算法,子空间算法等多种类型,这些算法严重依赖训练集和测试集场景,且对光照、人脸的表情、姿态敏感,泛化能力不足,不具有太多的实用价值;第二阶段的人脸识别算法普遍采用了人工特征+分类器的思路,部分解决了光照敏感问题,但还是存在姿态和表情的问题;目前利用深度学习的人脸识别算法已成主流,极大地提高了智能安防实时监控精度,推动这一技术真正走向实用。


2013年,脸书(Facebook)的Yaniv Taigman等人提出了DeepFace算法,该算法基于检测点实现人脸检测,通过对检测后的图片进行二维裁剪,将人脸部分裁剪出来,然后转换为3D模型,利用CNN模型对3D模型进行特征提取、归一和分类完成人脸识别。DeepFace算法是人脸识别的奠基之作,直接影响了后续的DeepID和FaceNet等算法。


同年,香港中文大学的汤晓鸥教授及其团队提出了DeepID算法,并凭借该算法参加2014年ImageNet大规模物体检测任务比赛获得第二名优异成绩。随后团队对DeepID算法进行改进提出DeepID2算法。DeepID2采用深度学习的方法来提取人脸高级特征,其采用的CNN网络结构共为10层,包括输入层、4个卷积层、3个池化层、1个DeepID层和1个Softmax层;在提取特征后,使用了Joint Bayesian和Neural Network两种方法进行区人脸比对,最终得出识别结果。


同年,谷歌的Christian Szegedy等人提出了Inception网络结构,该结构构造了一种“基础神经元”结构,来搭建一个稀疏性、高计算性能的网络结构,将CNN中常用的卷积(1x1,3x3,5x5)、池化操作(3x3)堆叠在一起(卷积、池化后的尺寸相同,将通道相加),一方面增加了网络的宽度,另一方面也增加了网络对尺度的适应性。谷歌基于Inception搭建了GoogleNet。GoogleNet凭借其优秀的表现,得到了很多研究人员的学习和使用。随后,谷歌的Philbin James William等人又提出了FaceNet,与其他的深度学习方法在人脸上的应用不同,FaceNet并没有用传统的softmax的方式去进行分类学习,然后抽取其中某一层作为特征,而是直接进行端对端学习一种从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别、人脸验证和人脸聚类等;将图像输入卷积神经网络去掉sofmax后的结构,经过L2的归一化,然后得到特征表示,基于这个特征表示计算三元组损失,其可使用两种卷积神经网络结构,第一种是Zeiler&Fergus架构,22层,第二种是GoogleNet式的Inception模型。在LFW上,使用了两种模式:直接取LFW图片的中间部分进行训练,效果98.87左右;使用额外的人脸对齐工具,效果99.63左右,超过DeepID。


2014年至2016年期间,GoogleNet团队对GoogleNet进行了进一步的发掘改进,研发出了Inception v2,Inception v3和Inception v4。最终基于Inception v4提出了inception-ResNet-v2。专利(申请号:US15395530)披露了将nxn的卷积通过1xn卷积后接nx1卷积来替代以加速计算,又可以将1个卷积拆成2个卷积,使得网络深度进一步增加,增加了网络的非线性;或者使用了两个并行化的模块(卷积、池化并行执行,再进行合并)来降低计算量,以及将ResNet与Inception 结合。


同在2016年,谷歌的Barret ZOPH等提出了NasNet,并以此提交了专利申请(申请号:US62414300)。这个模型并非是人为设计出来的,而是通过谷歌很早之前推出的AutoML自动训练出来的。该项目目的是实现“自动化的机器学习”,即训练机器学习的软件来打造机器学习的软件,自行开发新系统的代码层,它也是一种神经架构搜索技术(Neural Architecture Search technology)。其模型就是基于AutoML首先在CIFAR-10这种数据集上进行神经网络架构搜索,以便AutoML找到最佳层并灵活进行多次堆叠来创建最终网络,并将学到的最好架构转移到 ImageNet 图像分类和COCO对象检测中,其在图像分类任务中表现极为优秀。


为了更好地适应移动端平台,2017年,谷歌的Howard Andrew Gerald等推出了MobileNet。该技术使用了一种称之为deep-wise的卷积方式来替代原有的传统3D卷积,减少了卷积核的冗余表达,在计算量和参数数量明显下降之后,卷积网络可以应用在更多的移动端平台。其他创新主体也围绕移动端应用进行大量技术创新,如通过神经网络模型的压缩、大型网络的特性迁移至小型网络等。


02、赋能医疗影像


传统的医学影像依赖于医师根据影像提供的信息进行诊断,而计算机视觉技术为医疗影像带来了新机会。自2006年,全球涉及医疗影像的计算机视觉相关专利近2000件。

 

计算机视觉技术专利分析


医疗影像的计算机视觉技术可以分为前期的图像获取,中期的图像处理,以及后期的图像诊断。图像获取进一步细分为图像构建、图像生成、目标跟踪,图像处理包括图像增强、图像修复、图像分割,图像诊断分为图像匹配、图像构建、图像分类。无论从专利布局数量还是布局质量,西门子、通用电气和飞利浦是该领域最重要的专利申请主体。三家企业在医疗图像构建、医疗图像生成、医疗图像增强和医疗图像修复等细分技术均进行了大量的专利布局,上述专利技术主要关注如何通过计算机视觉技术更高效地分析处理医疗数据,提升图像检测设备的性能,使其能获取更加准确、更加丰富的信息。


03、革新自动驾驶


除了智能安防、医疗影像,视觉技术在自动驾驶方面的应用越来越受到众多科技型企业、传感器企业、汽车企业的重视。自动驾驶的图像视觉处理领域,Mobileye公司具有绝对的技术优势和市场优势,Mobileye也一次又一次地利用技术的革新推动着产业的发展。


2006年,深度学习算法刚提出不久,Mobileye就尝试利用深度学习算法对车灯进行了识别,并利用车灯信息对车辆进行识别导航。与此同时,福特提出利用人工智能技术修复低分辨率的图像,使得汽车在夜间也能获得更加清晰的图像。早稻田大学尝试将视觉系统和激光点云相融合,并融入人工智能技术。松下提出了专门处理环视视觉的处理器架构,其布局可谓十分超前。因为直到不久前,Mobileye推出新的视觉辅助驾驶系统才开始采用多摄像头的环视技术。Mobileye也在硬件系统上进行了尝试,如对片上系统的中断技术进行了研究。在这一阶段,由于技术的不成熟,车辆控制技术所出现的关键技术较少。

 

计算机视觉技术专利分析


2013年以后,人工智能在计算机视觉方面的技术发展得越来越成熟,大量的关键性技术涌现出来。比如Mobileye采用了人工智能识别算法,识别道路轮廓。百度也利用人工智能算法识别车道线。这些都对车辆行驶路径的规划提供了技术保障。福特、苹果等也在算法领域进行了各种探索。


在硬件设备领域,同样出现了一批代表性技术。随着传感技术和算法的发展,智能网联汽车获得的数据越来越多,而车辆的操控具备及时性,这就要求处理器能在短时间内处理大量的数据。


Mobileye在硬件系统方面做出了大量的尝试,研发了多核多线程处理设备。从产品上来看,Mobileye也一直自主设计芯片,其拥有多代EyeQ芯片,芯片和算法的融合设计使得其计算能力得到了进一步提升。其他的创新主体,比如法雷奥、东芝也在硬件设备的改造上进行了尝试。


国家知识产权局专利分析普及推广项目人工智能关键技术课题组
© Copyright 2016.版权所有 京ICP备2020047060号-1
地址:北京市朝阳区望京SOHO 塔3 B座1708室