内容正文:
同学们好,欢迎大家来到人工智能系列课程第九课智能语音项目,主题是声临其境,探秘智能语音技术的原理。本节课从以上六个模块展开,本节课的项目学习目标围绕人工智能的核实素养展开。第一个学习目标,人工智能意识和思维能力方面。第一点,通过语音识别和声纹识别应用场景,加强人工智能意识。第二点,通过智能语音技术的原理探究,掌握语音识别和声纹识别的技术原理,加强思维能力。第二个学习目标,人工智能应用与创新能力方面,了解智能语音技术在生活中的应用。第三个学习目标,人工智能伦理与社会责任方面,加强智能语音应用的数据安全和隐私保护方面的行为自律和社会责任。带着问题观看以下国家普通话水平智能测试系统的介绍视频,想一想试音环节中影响声音采集的因素有哪些?现场考试,考试当天请考生携带有效身份证原件和准考证前往指定测试站。到达考点后,根据工作人员指引有序使用身份证进行信息采集,采集的照片将会用在普通话水平测试等级证书上。信息采集完成后,到后测区等待叫号,根据叫号系统显示的文字和语音提示到对应的测试室进行测试。注意,考生严禁携带纸笔包、电子设备等进入考场。考生进入测试机房后,请做好并正对摄像头登录完成后,界面上会显示你的个人信息,请核对信息,如果信息错误,请告知监考老师,正确请点击确认。第二步,佩戴耳机试音,请按照屏幕提示戴好耳机,并将麦克风调整至距离嘴边大约2到3厘米的位置,请等待考场指令,按照屏幕提示要求进行试音。试音成功后进入测试环节,若试音失败,页面会弹出提示框,请点击确认按钮重新试音。听到嘟声后开始读。第一项读单音节字词,限时3点5分钟,请横向朗读。页面下方有时间条,请注意控制时间。第一项完成后,请立即点击右下角的下一题按钮,进入第二项测试,同样请你注意控制时间,并在完成朗读后立即点击下一题按钮。第四项命题说话,请在下列话题中任选一个,限时三分钟。请在10秒内选择你要说话的题目,否则系统默认选择第一个说话题目。确认题目后,你有30秒的准备时间,听到嘟的一声后开始答题。答题时读出你所选择的说话题目。例如我的说话题目是我喜爱的动物,必须说满三分钟。麦克风收集声音的距离远近、说话人的声音大小以及说话速度等都是影响声音采集的因素。计算机辅助普通话水平测试是通过计算机语音识别系统部分代替人工测评,对普通话水平测试中应试人朗读的第一项读单音节字词、第二项读多音节词语和第三项朗读短文的语音标准程度进行辨识和评测。那到底什么是语音识别技术呢?语音识别是以语音为处理对象,通过语音信号处理和模式识别,让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。我们生活中已经广泛应用语音识别技术,包括常见的智能音箱、语音转字幕,比如实时语音、同声传译等等,都是语音识别的应用。同学们还能举例其他的语音识别的应用吗?我们通过一个小组活动体验有道同传,画出语音识别的工作原理流程图。第一步,下载有道同传。第二步,体验实时语音同声传译。第三步,要求选择本机屏幕声源为本机麦克风采集语言选择中文翻译为英语字幕,设置小组自主决定。第四步,基于语音识别技术画出语音识别的工作原理流程图。接下来同学们分组行动。好了,相信同学们通过小组的活动探究,对语音识别的工作原理有了初步了解。接下来观看视频,从视频中思考语音识别技术的工作原理是怎样的呢?聆听你的声音。嗨,我是小薇学姐。今天我们要讲的是语音识别。自然界的声音丰富多样,我们为什么不会将下雨声、刮风声、打雷声听成是人在说话呢?因为不同的声音有区别,语音识别的第一步就是将特定的声音区分出来。那么声音的特征如何分辨呢?声音在空气中的传播称为声波,它是由空气振动产生的,就像我们眼睛所见的画面都是由光波产生的。但是计算机不认识什么光波和声波,它只认数字,所以我们的录音设备就要将空气的震动用数字记录下来,这被称为波形图。波形图上面的每一个点都用一个数字来表示当前时刻下的空气压力,这就是计算机听到的声音。而计算机的大脑还会将它们进行简单变换,变成频谱图,你可以理解为是声音里高低音的分布。通过这样的处理,声音变成了一种特殊的图片,计算机就可以通过分析这些图片来总结其中的特征,将不同的声音区分出来。枪声、婴儿哭声、说话声在计算机的眼里都是很不一样的。就算同样是人类说话的声音,不同的发音内容对应的声音图片也很不相同。比如人类发和一的声音频谱图就很不一样,这是计算机进行语音识别的基础。现代语音识别系统一般都是通过复杂的统计模型,也就是在大量语音数据中找规律来识别语音中的内容。他们不仅要识别不同的因素,如ROE等,还要将这些因素组合起来,变成可能的词和句子。为了达到比较高的准确率,语音识别系统要考虑发音上的各种变异,处理发音之间的关联,还要借助语言知识对识别结果进行约束,来解决同音字的问题。比如我被鱼刺卡了,就比我被鱼刺卡了更有可能性。目前,语音识别技术已被广泛应用于识别各种语音指令,它让我们不用手、只用声音就能向手机、智能家居、车载设备等发布命令,不仅便捷,还能免除不少危险。除了识别发音内容,机器还可以通过声音验证我们的身份,判断我们的位置、辨别我们的情绪。结合语音合成技术,机器还能模仿人的发音。有了这些做基础,机器真的成为一位能听会说的好朋友了。声音输入电脑,电脑会先把声音整理一下,比如降噪预处理,然后他会找出声音里的特别信息,这叫特征提取。接下来电脑会用这些信息去识别,就像用放大镜找线索,电脑会不断训练自己,提高识别能力,最后它会在模型库里找出最匹配的语音,告诉你识别结果。结合上述步骤,基本过程大致可以分为,声音数据采集、声学特征提取、声学模型训练、最后模型匹配结果。首先我们来了解一下声音的三个重要特性。响度,就是声音的大小。比如你大声喊叫和轻轻说话的区别,音调就是声音的高低,比如小鸟的叫声很高,而大象的叫声很低。音色就是声音的独特品质。每个人的声音都是独一无二的,就像每个人的指纹一样。麦克风就像是一个小小的侦探,它会捕捉到你声音的所有细节。麦克风会把你的声音转换成电信号,接下来这些电信号会被送到电脑里进行数字化处理,以0和1的形式存在电脑中,保存为波形文件。语音识别特征提取的作用是滤除掉一些与语音识别任务无关的干扰或者噪声,从而使机器能够更专心的训练语音识别技能。常见的语音识别特征是梅尔频率倒谱系数MFCC,是利用人耳对不同频率声音的敏感程度不同,将声音的音调信息通过非线性的方式映射到梅尔频谱中,声音变成音频数据真,然后转换成频率数据,接着通过梅尔频率数据处理,最后得到MFCC数据。这些内容同学们有兴趣可以课外去了解,课堂上不用特别去深究哦。语音识别的工作原理中的声学模型训练,其中声学模型是描述声音信号特征的模型,用于将声音信号转换成文本。较为典型的为M以马尔可夫模型用于声学模型训练和识别的统计模型可以捕捉声音信号的时间序列信息,隐含节点按照字的先后顺序链接成单项链,并且每个隐含节点产生一个可见节点。播放音乐四个字是他们中的隐含节点,而由这些字生成的语音片段就是可见节点。它们的特点在于每一个隐含节点只与前一个隐含节点以及当前的可见节点输出相连。比如例子中的月这一隐含节点只语音隐含节点以及对应的声音输出片段乐有关,与播放等隐含节点以及播放音等可见节点无关。接下来通过一个小组活动加深对声学模型训练的了解吧。尝试在下图中从左到右连接所有可能的词组,如图中的歌曲和很懂,再选出最有可能的句子来体验了解以马尔可夫模型的识别过程,比如图中的词组中这首歌曲很动听,就是有可能的句子。同学们有没有想过语音识别中的同音字怎么准确区分呢?3、音素建模考虑到协同发音效应,也就是上下文因素,会对中心音素发音会有影响,会与该音素单独发音会有所不同,使得模型更加精准。因素是根据语音的自然属性划分出来的最小语音单位根据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音和辅音两大类,如汉字音节是一个音素,I是两个音素,人是三个音素。语音识别中语音同传的声学模型训练,就像教电脑学会听懂我们说话一样有趣。首先从训练语料库中取出一句语料,然后分别提取语音和文本的特征,接着这些特征会被用来训练模型,就像给电脑上课一样。训练好的中间模型会不断检查,如果还不够好就继续训练,如果已经很棒了,就会被保存到模型库中,这样电脑就能更好的识别我们的声音了。在识别时,将输入的语音特征与声学模型进行匹配比较,得到最佳的识别结果,这就是语音识别的整体工作过程。除了语音识别,声纹识别也是智能语音技术的一种。接下来我们通过一个声音配对挑战赛,先来感知一下活动规则。本组挑战者背对其他组员,保持看不到说话人的状态。一组员各自领取1至4号卡片,成为对应声音样本的主人。2、每人对着卡片号码说我是X号,X随自己的号码,记录员用手机录下这段声音。3、组员轮流随机说我是X号,可以故意说错号码,比如三号说我是一号。4、挑战者需根据实际声音和手机录音判断说话人实际对应的号码,每猜对一次得一分,同学们试试吧,游戏结束后想一想,为什么小组成员即使说错号码,挑战者也能听出是谁。人类通过声音的特征识别人,机器也能做到。比如现在的语音验证码就是声纹识别的应用。声纹识别也叫说话人识别,是一种通过分析语音中的声学特征来确认或辨认说话人身份的生物识别技术,核心在于每个人的发音器官,如声带、口腔、鼻腔等在形态和功能上的差异,会形成独特的声纹图谱,具有相对稳定性和唯一性。其实声纹识别的原理跟刚刚的小组活动类似,第一步采集声音,第二步特征提取,第三步声纹匹配,最后识别说话人。声纹识别中的特征提取就像侦探寻找线索一样有趣。在语音的频谱图中有一个特别重要的东西叫共振风,这些共振风带着声音的独特信息,帮助我们辨认不同的声音。在声纹识别中,我们需要找到这些共振峰的位置,并把它们的变化过程连接下来,形成一条平滑的曲线。初步了解了语音识别技术和声纹识别技术,那么表格中的维度对比分析一下,小组讨论也可借助AI工具共同探究。语音识别技术的核心目标是将语音内容转换为文本识别说了什么。声纹识别技术是识别或验证说话人身份,确认是谁说的。语音识别技术的关键技术是声学模型、语言模型。声纹识别技术主要是说话人特征提取,相似度匹配。语音识别技术的特征提取重点是短时频谱特征。声纹识别技术的重点是长期生物特征,比如共振、风声道形状、发音习惯等。语音识别输出重点是语音转文本,声纹识别的输出重点是说话人ID或相似度分数。抗干扰方向也有所不同,语音识别强调抗抑制噪声、方言多样性、同音词歧义。声纹识别强调抗声音,模仿年龄或健康导致的声纹变化、环境造声。语音识别的典型应用主要为语音输入法、实时字幕、智能助手。声纹识别技术的典型应用是身份认证、安防监控、司法取证,依赖信号特性或者其他的维度,同学们都可以继续探索。观看视频了解语音识别被用于某些APP实现监听,进行信息推送,怎样有效保护个人语音信息呢?课后同学们可以自主思考。难道我们说的话真的都被手机偷听了吗?带着疑问,记者来到了在中央网信办、工信部、公安部、市场监管总局指导下,相关协会成立的APP治理工作组。那么,专家能替我们揭开这个秘密吗?技术专家首先通过一款由他们开发的模拟APP偷听测试程序,向我们演示了从技术上APP究竟是否能够进行偷听,以及如果进行偷听可能会出现哪些情形。我们现在就进入这个测试的环节,我们假如这样发一个语音,当手松开了以后,这个录音室还在继续。那这个提示实际上我们还可以把它去掉。测试整个的过程是两分钟。两分钟后我们可以看到在测试程序中生成了一条时长为120秒的语音,技术人员将语音数据导出后,经过核对,证实了当测试程序置于前台运行时,偷听是可以实现的。此外,经过对比实验,技术人员告诉我们在测试程序退至后台或者在手机处于锁屏的情况下,录音依然可以持续进行一段时间,但都会自行终止,只是不同的手机操作系统锁屏下持续录音的时长略有不同。实验显示,手机APP真的能够偷听用户的对话,但是在技术上可以实现的偷听手段,实际应用当中是否已经被市面上的APP滥用,随时随地就能对我们进行偷听呢?我们在做实际的对偷听的这种检测的时候发现,就确确实实目前还没有发现真正意义上哪款这个APP,它有APP,它有这种把语音信息上传之后的这种偷听行为。APP治理工作组专家介绍,偷拍偷录虽然在技术上可以实现,但是这种方式成本高昂、效率低下,而且存在高昂的法律风险。它效率不高,为什么呢?开启麦克风手机容易发热。我们刚才看了一些检测的一个结果,一旦屏幕锁定他就听不了了。那他即便是能听的话,第二他得传,会让这个手机变卡。数据上传上去之后,你还得服务器去存储,你还得买更多的服务器。比如说我们俩在对话,您的手机可能在开着。那如果偷听的话,偷听的到底是谁呢?是本人吗?如果不是本人的话,他这样的推送又有意义吗?他的法律风险又很高。如果偷听,我们刚才也说了,这种实验环境下偷听是可以被检测出来的。APP治理工作组专家表示,目前无论是行业标准还是技术层面,都在进一步强化对手机麦克风等敏感权限调用的透明度,以做到让手机使用者知情。现在我们看到有些手机操作系统已经实现了对麦克风使用的实时的提示,叫我们叫摄录指示器。也就是说当你要调用这个麦克风的时候,有一个状态栏,有一个红点或者说一个提醒。按照专家所说,因为成本高效率低,法律风险又大,所以在技术层面可以实现的手机APP偷听,实际生活当中却是很难被应用的那既然没有被偷听,APP u为什么可以针对用户的需求进行精准的个性化推荐呢?一个APP我们说它可以把一个用户做360度的画像。这个画像我相信它是一个常年积累的结果,这是第一第二是多个渠道汇聚的结果。据专家介绍,画像的准确性主要是通过对我们的购买记录、浏览记录、搜索记录,甚至是下载过的应用程序清单等信息进行大数据分析,最终得以实现。为什么说有时候你会感觉被偷听呢?提供大数据的来源,它不是当前的这个APP,它可能是其他APP你去做过一些操作,他会把相应的信息汇总到一起。它可能还会关联你的好友,关联你同一个区域内的人员。然后他们有的一些动作,他也可能会成为他推送广告的一个方向。即使是原本不属于个人信息的数据,在大量汇聚了之后,也能挖掘出事物之间不为人知的联系,这就是手机APP能够实现用户画像,进行精准推送的原因。要提示大家,保护个人信息,我们最实际的做法就是可以在手机操作系统的权限设置里找到麦克风权限,检查目前有哪些APP被授权使用麦克风。然后根据自己的需要,对一些您不想让他使用麦克风的APP关闭授权。本节课内容主要包含了智能语音的应用、语音识别的原理、声纹识别的原理和智能语音技术的伦理。单选题第一题,语音识别技术的主要目的是什么?答案选A语音识别技术核心是把语音信号转化为对应的文本内容。B是语音合成技术。C分析语音信号是语音识别过程里的环节,非主要目的地。语音增强是预处理来提升语音质量,并非语音识别主要目的。所以选A单选题。第二题,语音识别技术中哪一环节负责将声音信号转换为数字信号?答案选AA选项,麦克风是语音识别的输入设备,它能将声音这种模拟信号转换为数字信号。B选项,声音预处理,是对转换后的数字信号进行降噪等处理。C选项特征提取,是从预处理后的信号中提取关键特征。D选项声学模型,用于识别声音特征对应的内容。单选题第三题,语音识别系统的语言模型主要作用是什么?答案,选D语言模型在语音识别系统里能辅助判断语音对应的合理文本,助力提高识别准确率,让识别结果更贴合真实语义,减少错误识别情况。同时,合理的语言模型可减少不必要计算,优化识别速度,所以ABC提到的作用都具备。选D本节课到此结束,感谢大家的聆听,我们下节课见。