第二阶段第9课智能语音（讲解视频）-初中信息科技人工智能课-学科网

资源信息

学段	初中
学科	信息科技
教材版本	-
年级	-
章节	-
类型	素材-视频
知识点	-
使用场景	同步教学-新授课
学年	2025-2026
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	MOV
文件大小	800.62 MB
发布时间	2025-07-24
更新时间	2025-08-14
作者	学科网技术精品工作室
品牌系列	其它·其它
审核时间	2025-07-24
下载链接	https://m.zxxk.com/soft/53202106.html
价格	46.00储值（1储值=1元）
来源	学科网

内容正文：

同学们好，欢迎大家来到人工智能系列课程第二阶段第九课项目主题声临其境，探秘智能语音技术的原理。在第一阶段我们已经了解过智能语音的相关应用，本节课咱们关注原理的探究。本节课从学习目标课堂导入、新知探究、AI、兴趣园地和知识总结以及智慧挑战六个模块展开。本节课的项目学习目标围绕人工智能的核心素养展开。第一个学习目标，人工智能意识和思维能力方面，第一点，通过语音识别和声纹识别应用场景加强人工智能意识。第二点，通过智能语音技术的原理探究，掌握语音识别和声纹识别的技术原理，加强思维能力。第二个学习目标，人工智能应用与创新能力方面，了解智能语音技术在生活中的应用。第三个学习目标，人工智能伦理与社会责任方面，加强智能语音应用的数据安全和隐私保护方面的行为自律和社会责任。带着问题观看以下国家普通话水平智能测试系统的介绍视频，想一想试音环节中影响声音采集的因素有哪些？现场考试。考试当天请考生携带有效身份证原件和准考证前往指定测试站。到达考点后，根据工作人员指引有序使用身份证进行信息采集，采集的照片将会用在普通话水平测试等级证书上。信息采集完成后，到后测区等待叫号，根据叫号系统显示的文字和语音提示到对应的测试室进行测试。注意考生严禁携带纸笔包、电子设备等进入考场。考生进入测试机房后，请做好并正对摄像头登录完成后，界面上会显示你的个人信息，请核对信息，如果信息错误，请告知监考老师，正确请点击确认。第二步，佩戴耳机试音请按照屏幕提示戴好耳机，并将麦克风调整至距离嘴边大约2到3厘米的位置，请等待考场指令，按照屏幕提示要求进行试音。试音成功后进入测试环节，若试音失败，页面会弹出提示框，请点击确认按钮重新试音。听到嘟声后开始读。第一项读单音节字词，限时3点5分钟，请横向朗读。页面下方有时间条，请注意控制时间。第一项完成后，请立即点击右下角的下一题按钮，进入第二项测试，同样请你注意控制时间，并在完成朗读后立即点击下一题按钮。第四项命题说话，请在下列话题中任选一个，限时三分钟。请在10秒内选择你要说话的题目，否则系统默认选择第一个说话题目。确认题目后，你有30秒的准备时间，听到嘟的一声后开始答题。答题时读出你所选择的说话题目。例如我的说话题目是我喜爱的动物，必须说满三分钟。在试音环节中，影响声音采集的因素有很多。首先，麦克风与嘴巴的距离很重要，通常保持2至3厘米最佳，太远或太近都会影响声音质量。其次，说话的声音大小也很关键，声音太小可能被设备忽略，太大则可能失真。此外，说话速度要适中，太快可能导致语音识别错误，太慢又会浪费时间。这些因素共同作用，确保声音清晰准确地被采集和处理。通过调整这些参数，我们可以优化录音效果，提高测试的准确性。计算机辅助普通话水平测试是通过计算机语音识别系统部分代替人工测评，对普通话水平测试中应试人朗读的第一项读单音节字词、第二项读多音节词语和第三项朗读短文的语音标准程度进行辨识和评测。那到底什么是语音识别技术呢？语音识别是以语音为处理对象，通过语音信号处理和模式识别，让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。我们生活中已经广泛应用语音识别技术，包括常见的智能音箱、语音转字幕，比如实时语音、同声传译等等，都是语音识别的应用。同学们还能举例其他的语音识别的应用吗？我们通过一个小组活动体验有道同传，画出语音识别的工作原理、流程图。步骤，第一步，下载有道同传。第二步，体验实时语音同声传译。第三步，要求选择本机屏幕声源为本机麦克风采集语言选择中文翻译为英语字幕，设置小组自主决定。第四步，基于语音识别技术画出语音识别的工作原理流程图。接下来同学们分组行动。好了，相信同学们通过小组的活动探究，对语音识别的工作原理有了初步了解。接下来观看视频，从视频中思考语音识别技术的工作原理是怎样的呢？聆听你的声音。嗨，我是小薇学姐。今天我们要讲的是语音识别。自然界的声音丰富多样，我们为什么不会将下雨声、刮风声、打雷声听成是人在说话呢？因为不同的声音有区别，语音识别的第一步就是将特定的声音区分出来。那么声音的特征如何分辨呢？声音在空气中的传播称为声波，它是由空气振动产生的，就像我们眼睛所见的画面都是由光波产生的。但是计算机不认识什么光波和声波，它只认数字，所以我们的录音设备就要将空气的震动用数字记录下来，这被称为波形图。波形图上面的每一个点都用一个数字来表示当前时刻下的空气压力，这就是计算机听到的声音。而计算机的大脑还会将它们进行简单变换，变成频谱图，你可以理解为是声音里高低音的分布。通过这样的处理，声音变成了一种特殊的图片，计算机就可以通过分析这些图片来总结其中的特征，将不同的声音区分出来。枪声、婴儿哭声、说话声在计算机的眼里都是很不一样的。就算同样是人类说话的声音，不同的发音内容对应的声音图片也很不相同。比如人类发和一的声音频谱图就很不一样，这是计算机进行语音识别的基础。现代语音识别系统一般都是通过复杂的统计模型，也就是在大量语音数据中找规律来识别语音中的内容。他们不仅要识别不同的因素，如ROE等，还要将这些因素组合起来，变成可能的词和句子。为了达到比较高的准确率，语音识别系统要考虑发音上的各种变异，处理发音之间的关联，还要借助语言知识对识别结果进行约束，来解决同音字的问题。比如我被鱼刺卡了，就比我被鱼刺卡了更有可能性。目前，语音识别技术已被广泛应用于识别各种语音指令，它让我们不用手、只用声音就能向手机、智能家居、车载设备等发布命令，不仅便捷，还能免除不少危险。除了识别发音内容，机器还可以通过声音验证我们的身份，判断我们的位置，辨别我们的情绪。结合语音合成技术，机器还能模仿人的发音。有了这些做基础，机器真的成为一位能听会说的好朋友了。语音识别就像让机器听懂我们说话。首先我们的声音被录入设备变成电信号，这是语音输入。然后这些信号经过预处理，去除噪音，使声音更清晰。接下来是特征提取，找出声音的关键特点，比如音调，接着训练模型，学习这些特点，形成一个模型库。当机器再次听到声音时，他会用模式匹配对比模型库中的数据，找出最相似的识别得到结果。结合上述步骤，基本过程大致可以分为，声音数据采集、声学特征提取、声学模型训练、最后模型匹配结果。声音数据采集是将声音转化为数字信号并保存的过程，声音具有响度、音调和音色等特性。首先，我们通过麦克风采集声音，采集到的声音是连续的模拟信号，我们需要将其转换为计算机能够理解的数字信号，这个过程叫做数字化，在计算机中转换为二进制，形成计算机可以处理的数据。最后，这些数字化的声音数据被存储在计算机中，方便后续的分析和处理。通过这种方式，我们可以更好的利用和研究声音信息。语音识别特征提取的作用是滤除掉一些与语音识别任务无关的干扰或者噪声，从而使机器能够更专心的训练语音识别技能。常见的语音识别特征是美尔频率倒谱系数，简称MFCC。MFCC是利用人耳对不同频率声音的敏感程度不同，将声音的音调信息通过非线性的方式映射到梅尔频谱中。声音变成音频数据阵，主要是除去音频中的噪声和不必要的干扰。音频信号是连续的，但为了方便分析，我们将其分割成多个短时间的片段，这些片段称为帧。分帧的过程就是将音频信号按照一定的时间间隔切分成小块，在分针后，每个帧会被乘以一个窗函数，这一步被称为加窗。窗函数的作用是减少帧与帧之间的信号不连续性，从而降低频谱泄露。接下来我们将音频转换成频率数据，这时我们就得到了一个叫做语音频谱图的图像，这个图像展示了声音在不同频率上的分布。为了让计算机更好的理解这些数据，我们使用mail滤波器组将频谱图转换为mail频率数据。Mail频率是一种更符合人耳听觉特性的频率表示。最后我们进行倒谱分析，生成梅尔频率倒谱系数。这些系数是语音识别中非常重要的特征，因为它们能够有效地代表声音的特性。语音识别的工作原理中的声学模型训练，其中声学模型是描述声音信号特征的模型，用于将声音信号转换成文本。较为典型的为ham，也就是以马尔可夫模型用于声学模型训练和识别的统计模型，可以捕捉声音信号的时间序列信息。隐含节点按照字的先后顺序连接成单向链，并且每个隐含节点产生一个可见节点。播放音乐四个字是行中的隐含节点，而由这些字生成的语音片段就是可见节点。Hom的特点在于，每一个隐含节点只与前一个隐含节点以及当前的可见节点输出相连。比如例子中的月，这一隐含节点指语音隐含节点以及对应的声音输出片段越有关，与播放等隐含节点以及播放音等可见节点无关。接下来通过一个小组活动加深对声学模型训练的了解吧，尝试在下图中从左到右连接所有可能的词组，如图中的歌曲和很懂，再选出最有可能的句子来体验了解野马尔可夫模型的识别过程。比如图中的词组中这首歌曲很动听，就是有可能的句子。同学们有没有想过语音识别中的同音字怎么准确区分呢？3、音素建模考虑到协同发音效应，也就是上下文因素，会对中心音素发音会有影响，会与该音素单独发音会有所不同，使得模型更加精准。因素是根据语音的自然属性划分出来的，最小语音单位根据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音和辅音两大类，如汉字音节是一个音素，是两个音素，人是三个音素。接下来我们具体了解下语音识别模型的训练过程。从训练语料库中提取一句语音和对应的文本，接着对语音进行特征提取，同时对文本也进行特征提取，然后将这些信息用于模型训练，生成多个中间模型。最后检查模型训练是否结束，如果未完成则继续训练，直到满意为止，最终放入模型库。就如机器学习语言，通过不断练习和调整，让它能准确识别我们的语音，在识别时将输入的语音特征与声学模型进行匹配比较，得到最佳的识别结果，这就是语音识别的整体工作过程。除了语音识别，声纹识别也是智能语音技术的一种。接下来我们通过一个声音配对挑战赛，先来感知一下活动规则。本组挑战者背对其他组员，保持看不到说话人的状态。第一，组员各自领取1至4号卡片，成为对应声音样本的主人。第二，每人对着卡片号码说，我是X号，X为自己的号码，记录员用手机录下这段声音。第三，组员轮流随机说我是X号，可以故意说错号码，比如三号说我是一号。第四，挑战者需根据实际声音和手机录音判断说话人实际对应的号码，每猜对一次得一分。同学们试试吧，游戏结束后想一想，为什么小组成员即使说错号码，挑战者也能听出是谁。人类通过声音的特征识别人，机器也能做到，比如现在的语音验证码就是声纹识别的应用，声纹识别也叫说话人识别，是一种通过分析语音中的声学特征来确认或辨认说话人身份的生物识别技术，核心在于每个人的发音器官，如声带、口腔、鼻腔等在形态和功能上的差异，会形成独特的声纹图谱，具有相对稳定性和唯一性。声纹识别的过程主要分为四个步骤，第一步，声音采集，首先我们需要录制说话人的声音。第二步，特征提取。声音录制后，我们会分析声音的波形，提取出声学特征。第三步，声纹匹配，提取的特征会与数据库中的声纹进行对比、分析匹配。第四步，说话人识别，根据匹配结果，我们可以识别出说话人的身份。这一过程在安全验证中非常重要，比如用于手机解锁或语音身份验证。对于一个语音的频谱图，峰值表示语音的主要频率成分，也称为共振峰，而共振风携带了声音的辨识属性。在语音识别中，我们需要把共振峰的位置和他们转变的过程提取出来。这个变化的过程是一条连接这些共振峰点的平滑曲线。初步了解了语音识别技术和声纹识别技术。那么表格中的维度对比分析一下，小组讨论也可借助AI工具共同探究。语音识别技术的核心目标是将语音内容转换为文本识别。说了什么？声纹识别技术是识别或验证说话人身份，确认是谁说的。语音识别技术的关键技术是声学模型、语言模型。声纹识别技术主要是说话人特征提取、相似度匹配。语音识别技术的特征提取重点是短时频谱特征，声纹识别技术的重点是长期生物特征，比如共振风声道形状、发音习惯等。语音识别输出重点是语音转文本，声纹识别的输出重点是说话人ID或相似度分数。抗干扰方向也有所不同，语音识别强调抗抑制噪声、方言多样性、同音词歧义。声纹识别强调抗声音模仿年龄或健康导致的声纹变化、环境造声。语音识别的典型应用主要为语音输入法、实时字幕、智能助手。声纹识别技术的典型应用是身份认证、安防监控、司法取证。语音识别技术的依赖的信号特性是语言学特征，主要为音素、词汇、语法。声纹识别技术依赖的信号特征是生物特征，比如声带、声道结构等其他的对比维度，同学们还可以课后自己去思考一下。观看视频了解语音识别被用于某些APP实现监听，进行信息推送，怎样有效保护个人语音信息，小组自由讨论。难道我们说的话真的都被手机偷听了吗？带着疑问，记者来到了在中央网信办、工信部、公安部、市场监管总局指导下，相关协会成立的APP治理工作组。那么，专家能替我们揭开这个秘密吗？技术专家首先通过一款由他们开发的模拟APP偷听测试程序，向我们演示了从技术上APP究竟是否能够进行偷听，以及如果进行偷听可能会出现哪些情形。我们现在就进入这个测试的环节，我们假如这样发一个语音，当手松开了以后，这个录音室还在继续。那这个提示实际上我们还可以把它去掉。测试整个的过程是两分钟。两分钟后我们可以看到在测试程序中生成了一条时长为120秒的语音，技术人员将语音数据导出后，经过核对，证实了当测试程序置于前台运行时，偷听是可以实现的。此外，经过对比实验，技术人员告诉我们在测试程序退至后台或者在手机处于锁屏的情况下，录音依然可以持续进行一段时间，但都会自行终止，只是不同的手机操作系统锁屏下持续录音的时长略有不同。实验显示，手机APP真的能够偷听用户的对话，但是在技术上可以实现的偷听手段，实际应用当中是否已经被市面上的APP滥用，随时随地就能对我们进行偷听呢？我们在做实际的对偷听的这种检测的时候发现，就确确实实目前还没有发现真正意义上哪款这个APP，它有APP，它有这种把语音信息上传之后的这种偷听行为。APP治理工作组专家介绍，偷拍偷录虽然在技术上可以实现，但是这种方式成本高昂，效率低下，而且存在高昂的法律风险。它效率不高，为什么呢？开启麦克风手机容易发热。我们刚才看了一些检测的一个结果，一旦屏幕锁定他就听不了了。那他即便是能听的话，第二他得传，会让这个手机变卡。数据上传上去之后，你还得服务器去存储，你还得买更多的服务器。比如说我们俩在对话，您的手机可能在开着，那如果偷听的话，偷听的到底是谁呢？是本人吗？如果不是本人的话，他这样的推送又有意义吗？他的法律风险又很高。如果偷听，我们刚才也说了，这种实验环境下偷听是可以被检测出来的。APP治理工作组专家表示，目前无论是行业标准还是技术层面，都在进一步强化对手机麦克风等敏感权限调用的透明度，以做到让手机使用者知情。现在我们看到有些手机操作系统已经实现了对麦克风使用的实时的提示，叫我们叫摄录指示器。也就是说当你要调用这个麦克风的时候，有一个状态栏，有一个红点，或者说一个提醒。按照专家所说，因为成本高效率低，法律风险又大，所以在技术层面可以实现的手机APP偷听，实际生活当中却是很难被应用的那既然没有被偷听，APP u为什么可以针对用户的需求进行精准的个性化推荐呢？一个APP我们说它可以把一个用户做360度的画像。这个画像我相信它是一个常年积累的结果，这是第一第二是多个渠道汇聚的结果。据专家介绍，画像的准确性主要是通过对我们的购买记录、浏览记录、搜索记录，甚至是下载过的应用程序清单等信息进行大数据分析，最终得以实现。为什么说有时候你会感觉被偷听呢？提供大数据的来源，它不是当前的这个APP，它可能是其他APP你去做过一些操作，他会把相应的信息汇总到一起。它可能还会关联你的好友，关联你同一个区域内的人员。然后他们有的一些动作，他也可能会成为他推送广告的一个方向。即使是原本不属于个人信息的数据，在大量汇聚了之后，也能挖掘出事物之间不为人知的联系，这就是手机APP能够实现用户画像，进行精准推送的原因。要提示大家，保护个人信息，我们最实际的做法就是可以在手机操作系统的权限设置里找到麦克风权限，检查目前有哪些APP被授权使用麦克风。然后根据自己的需要，对一些您不想让他使用麦克风的APP关闭授权。本节课内容主要包含了智能语音的应用，语音识别的原理、声纹识别的原理和智能语音技术的伦理。最后是本节课的智慧挑战环节，单选题第一题，语音识别技术的主要目的是什么？答案选，A语音识别技术核心是把语音信号转化为对应的文本内容。B是语音合成技术。C分析语音信号是语音识别过程里的环节，非主要目的。D语音增强式预处理来提升语音质量并非语音识别主要目的，所以选A单选题。第二题，语音识别技术中哪一环节负责将声音信号转换为数字信号？答案选AA选项，麦克风是语音识别的输入设备，它能将声音这种模拟信号转换为数字信号。B选项，声音预处理是对转换后的数字信号进行降噪等处理。C选项特征提取，是从预处理后的信号中提取关键特征。D选项声学模型，用于识别声音特征对应的内容。单选题第三题，语音识别系统的语言模型主要作用是什么？答案，选D语言模型在语音识别系统里能辅助判断语音对应的合理文本，助力提高识别准确率，降低误识率。同时，合理的语言模型可减少不必要计算，优化识别速度，所以ABC提到的作用都具备。选D本节课到此结束，感谢大家的聆听，我们下节课见。

所属专辑

学科

人工智能课（课件+学习任务单+AI数字人讲解视频）-初中信息科技

初中信息科技普通专辑 54 份文档

13387人已阅读