内容正文:
同学们好,欢迎大家来到人工智能系列课程第二阶段第十课计算机视觉项目主题身边电子眼的工作原理。在第一阶段我们已经体验探究过计算机视觉的应用。本节课主要侧重技术原理的探究,从以下六个模块主要为学习目标、课堂导入、新知探究、AI、兴趣源地、知识总结和智慧挑战展开。首先一起看一下本节课的项目,学习目标围绕人工智能的核心素养展开。首先是人工智能意识和思维能力方面,理解OCR光学字符识别技术的工作原理,加强人工智能思维,初步了解KNN算法和HOG特征的提取以及人脸识别的原理,理解计算机视觉的工作流程,初步了解表情识别。其次是人工智能应用与创新能力方面,了解计算机视觉技术在生活中的应用。最后是人工智能伦理与社会责任方面,通过计算机视觉技术的伦理安全问题,了解人工智能的伦理与社会责任。同学们日常生活中有喜欢练毛笔字的爱好吗?今天正式进行课堂内容之前,咱们一起写写毛笔字。分小组分别领取下面5种字体的人工智能书写形式,用毛笔字模范书写后,使用手机的应用进行拍照、识别、提取文字。能够提取文字的应用,比如手机通讯软件的微信就有提取文字的功能,打开应用,拍下照片,保存下来。比如草书的人工智能保存为草书点JPG,行书的人工智能保存为行数点JPG,其他的字体都可以保存为对应的字体图片。对五种字体写下的人工智能毛笔字的识别结果、正确率以及识别准确或不准确的可能原因进行思考探究,根据提取效果完成一下表格。刚刚的学习活动任务就是OCR光学字符识别技术的应用光学。字符识别是指电子设备,例如扫描仪或数码相机检查纸上打印的字符,通过检测暗亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。典型的OCR技术路线包括输入图像、图像预处理、文字检测、文本识别、文字校正和文字输出。输入图像是指透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机科技的进步扫描仪等的输入装置,以制作的愈来愈精致,轻薄短小,品质也高,对OCR2有相当大的帮助。扫描仪的分辨率使影像更清晰,扫除速度更增进OCR处理的效率。图像预处理通常是针对图像的成像问题进行修正,常见的预处理过程包括几何变换、透视、扭曲、旋转等、畸变校正、去除模糊、图像增强和光线校正等。文字检测即检测文本的所在位置和范围及其布局,通常也包括版面分析和文字行检测等。它主要解决哪里有文字、文字在图片上的范围有多大的问题。文字识别,是在文字检测的基础上对文本内容进行识别,将图像中的文本像素信息转化为文本字符信息。文字校正,识别出的文本字符通常需要再次核对校正以保证其正确性,因此文字校正也是OCR1个非常重要的环节。文字输出接收文本识别得到的字符信息,即从图像像素中提取转化的字符数据,并通过屏幕显示、文件存储、打印等预设方式将这些字符信息转化为可被感知或处理的具体形式。智能阅卷或智能批改已经广泛应用于考试场景,比如手写的填空题、简答题或论述题等等,都有相应的答题要点以及各自的赋分分值。以小组为单位画出该应用过程的流程图,以OCR光学字符识别技术的流程作为参考。首先需要输入图像,将同学们做好的答卷借助扫描仪获取答题图片,通过手写识别得到对应的文本。得到文本内容后,与答题要点进行关键词匹配,最后根据匹配结果进行赋分,这就是智能阅卷的流程示意图。同学们完成的怎么样呢?除了常用的OCR光学字符识别,人脸识别也是我们日常生活中经常接触的。下面我们通过一个互动游戏蒙眼认人,先来感知人类怎么进行人脸识别的。活动规则,本组挑战者用眼罩蒙着眼睛,通过触摸同学的脸部猜人,被触摸脸部的同学不允许发出声音。本组挑战者触摸部位为被触摸的同学脸部轮廓,如鼻子形状、脸型和下巴轮廓等等。限时30秒,猜中最多人数的小组获胜,同学们快试一试。为什么人类可以蒙着眼睛猜出是谁?其实只要稍微想一想就能知道,我们用手触摸后感知人脸特征与记忆中的人脸特征类似就能猜出来,人类通常通过某些特点去描述人脸特征,京剧脸谱通过夸张的方式反映出某个人物角色的脸部特征。比如关羽红脸,张飞黑脸面凶、曹操短须等来表现人脸特征。最后人类综合人脸全部特征去判断。那么机器又是如何去人脸识别的呢?是不是和人类认出人脸是类似的步骤呢?下面观看视频以及结合实际生活的经验举例,人脸识别主要应用场景有哪些?AI人脸识别系统有两大用途,面部验证,比如机场安检的人脸识别,手机上的3D人脸识别,目的就是看你和身份证、护照上的人是不是同一个人。面部辨识,比如演唱会现场的安防系统、逃犯识别,目的是从很多很多人中找出目标。AI是怎么在演唱会现场辨认出逃犯的呢?首先系统里已经存储了目标任务的面部图像,然后AI会像我们观察记忆一样,从图像中提取面部特征并存储在数据库中。最后也是最关键的一步,当有人经过安防系统摄像头捕捉面部图像并输入系统AI会提取面部特征和数据库中的目标图像做对比。相似度太高的时候,反人就是你了。主要应用场景有安防监控、身份验证、人脸美化、智能相册、人脸3D建模和互动营销等。人脸检测是基于人的脸部特征信息进行身份识别的一种生物识别技术,其中包含借助摄像机等硬件直接采集图像或从视频流中抓取图像,再在图像中检测和跟踪人脸,进而根据检测到的人脸对其身份进行识别等环节。主要的工作流程为人脸采集,也就是图像采集,然后对采集到的图像进行预处理,比如去灰度化彩色图像转换为灰度图像。再进行图像特征提取,比如人脸的轮廓特征。最后进行匹配识别,确认身份。特征提取中比较传统的一种是HG特征,H和G即方向梯度直方图特征,一种在计算机视觉和图像处理中用来进行物体检测的特征描述。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。在一幅图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布,很好地描述其本质为梯度的统计信息,而梯度主要存在于边缘的地方。实现方法,首先将图像分成小的连通区域,这些连通区域被叫做细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图,最后把这些直方图组合起来就可以构成特征描述符。主要的提取步骤为,归一化处理计算图像梯度统计梯度方向特征向量、归一化生成特征向量。同学们可以使用百度AI开放平台体验人脸识别特征提取的过程,其中的提取步骤牵涉相对抽象的概念,本节课同学们不用深究,大概了解其过程就可以。色彩和伽马归一化是为了减少光照因素的影响,首先需要将整个图像进行规范化。在图像的纹理强度中,局部的表层曝光贡献的比重较大,所以这种压缩处理能够有效的降低图像局部的阴影和光照变化。计算图像梯度是计算图像横坐标和纵坐标方向的梯度,并据此计算每个像素位置的梯度方向值。求导操作不仅能够捕获轮廓、人影和一些纹理信息,还能进一步弱化光照的影响。构建方向直方图,细胞单元中的每一个像素点都为某个基于方向的直方图通道投票,投票是采取加权投票的方式,也就是每一票都是带有全职的。这个权值是根据该像素点的梯度幅度计算出来,将细胞单元组合成大的区间。由于局部光照的变化以及前景背景对比度的变化,使得梯度强度的变化范围非常大,这就需要对梯度强度做归一化。归一化能够进一步的对光照、阴影和边缘进行压缩,收集HOG特征,把提取的HOG特征输入到SVM分类器中,寻找一个最优超平面作为决策函数。这里说明一下什么是SVM分类器是一种监督学习模型。在机器学习中,SVM被广泛用于数据分类和回归分析。在人脸识别任务中,SVM分类器的作用是将提取出的HOG特征进行分类,从而识别出不同的人脸。在进行特征提取之后,可以使用KNN算法进行人脸识别。KNN算法就是给出一个样本计算,在训练样本集中与该样本距离最近的K个邻居,然后根据K个邻居所属的类别判定样本所属的类别。这里的距离具体到人脸识别中,就是人脸的特征向量间的距离。比如在样本集中有关羽类和曹操类两个类别,根据KNN算法假定K取值5,然后计算出特征向量与之距离最近的五张人脸。左图中虚线所包围的人脸,从中可以发现五张人脸中关羽所占比例较大,那么这个未知人脸将被归为关羽类。那么基于HOG特征的初步了解,我们可以再次进行人脸识别工作原理的梳理。首先输入人脸图像,图像预处理,提取HOG特征,SVM分类器训练,SVM分类器分类,最后输出人脸识别结果。其中特征提取环节基于传统机器学习的特征提取。现在随着人工智能技术的发展,基于深度神经网络的表示学习也已经融入到了特征提取,前面学习到的光学字符识别和人脸识别都是计算机视觉的应用,比如手机微信的扫一扫就包含物体识别,识别花草动物等等,再比如智能捕捉,拍摄同学们的动作视频,就是姿态识别,这些都是计算机视觉的应用。人工智能的计算机视觉就像人的眼睛一样,它通过电子化的方式来感知和理解周围环境,换句话说,计算机视觉就是利用成像设备对目标进行识别、跟踪和测量,并对图像做进一步处理,使图像更适合人眼观察或仪器检测,建立能够从图像或者多维数据中获取信息的人工智能系统。通过OCR光学字符识别和人脸识别的原理探究,我们基本可以总结计算机视觉的工作流程,首先进行图像采集,然后特征提取,然后进行模型训练,最后模型输出结果。特征提取和模型训练的部分其实整体就是机器学习的模块。接下来我们通过一个小组任务,更进一步感知计算机视觉技术的原理。如果想设计一个智能陪伴机器人可以识别人类不同的表情,请调整下方计算机视觉中表情识别的流程示意图顺序。智能陪伴机器人可以识别人类不同的表情,其实就是表情识别基本过程为,首先通过采集的图像检测到图像中的人脸,定位人脸区域,然后提取表情关键特征点,接着利用表情分类器进行表情识别,最后输出识别结果。智能机器人可以根据表情识别结果做出陪伴决策。计算机视觉已经广泛应用于实际生活,给我们的生活提供便利的同时,也有一些伦理安全问题。比如隐私问题,如人脸识别、人体检测等个人隐私数据的安全问题,如果被非法售卖和获取,就会侵犯个人隐私。再比如歧视问题,计算机视觉的训练数据如果存在偏差,可能会导致算法产生歧视。还有误判问题,由于计算机视觉技术本身的局限性,比如遮挡光线不好或者其他因素导致识别不准甚至误判而产生困扰。本节课我们了解了OCR的技术路线,人脸识别的工作原理,HOG特征提取步骤,计算机视觉的工作原理,k nn算法概念和计算机视觉的伦理安全问题。最后通过智慧挑战环节巩固本节课的内容。单选题第一题为了提高点名的效率,某校引入了人脸考勤系统,该系统事先采集学生的脸部数据并保存到服务器。中学生进入教室时,考勤机自动刷脸验证学生身份并登记为到校。班主任可通过浏览器查看学生的到校信息。该系统采用人脸识别技术进行身份认证。人脸识别属于计算机视觉技术。以下属于的计算机视觉技术是。答案选d OCR光学字符识别技术、表情识别和物体识别以及人脸识别都属于计算机视觉技术,因此选D以上都是单选题。第二题,在进入学校等重点场所时,我们通过健康核验一体机又称数字哨兵,或使用移动端小程序扫描场所码后,即可完成健康核验和场所登记。请对以下操作进行排序,实现人脸识别功能。答案B首先健康核验一体机需要3拍摄照片获取图像。只有先获取到图像才能进行后续处理。接着一扫描判定是否存在人脸并提取特征点,从拍摄的图像中确定人脸位置并提取关键特征,然后四通过特征点比对库中的身份,将提取的特征点与预先存储在数据库中的身份特征进行比对。最后二根据拍摄的图片,在比对完成后,确定所拍摄人脸对应的具体身份信息,排序为3142。单选题第三题,某医院智能药房管理系统具备以下功能,自动分拣子系统,通过计算机视觉自动识别药品包装,完成精准分药入库。下面关于计算机视觉技术的工作原理描述错误的是。答案C计算机视觉技术原理的工作步骤一般为图像采集、特征提取、模型训练和模型输出。所以A选项、B选项正确,计算机视觉技术采集到的数据也需要保护数据的安全,C选项描述为不需要保护错误,药品包装上文字识别采用了OCR光学字符识别,D正确。本节课到此结束,感谢大家聆听,我们下节课见。