第一阶段第4课 AI听说之旅（讲解视频）-初中信息科技人工智能课-学科网

资源信息

学段	初中
学科	信息科技
教材版本	-
年级	-
章节	-
类型	素材-视频
知识点	-
使用场景	同步教学-新授课
学年	2025-2026
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	MP4
文件大小	941.93 MB
发布时间	2025-06-06
更新时间	2025-08-14
作者	学科网技术精品工作室
品牌系列	其它·其它
审核时间	2025-06-06
下载链接	https://m.zxxk.com/soft/52453177.html
价格	46.00储值（1储值=1元）
来源	学科网

内容正文：

今天这节课我们要一起踏上AI听说之旅项目主题，探寻智能语音的应用，一起了解智能语音技术的应用。大家准备好了吗？我们开始。本节课从学习目标、课堂导入、新知探究、知识总结、智慧挑战和AI兴趣园地以上六个模块展开。现在我们一起来看看今天的学习目标。第一个，我们要了解语音识别技术及其应用，这项技术能让机器听懂人类说的话。第二个，感知语音合成技术及其应用，它能让AI像人一样开口说话，比如语音助手、导航语音等都很常见。第三个，感知声纹识别技术，也就是说话人识别技术及应用。这个技术就像是声音的指纹，可以用来识别是谁在说话。其实智能语音技术已经围绕在我们生活的日常中，比如普通话语音测试，很多地方考普通话时都会让你用电脑配套的麦克风朗读文字，系统会判断你发音。智能客服打电话或者线上咨询时，有时会有机器人来接待你，问你想了解什么问题，然后再把答案读出来。智能音箱、天猫精灵、小度这些设备可以帮你播放音乐，告诉你天气、设置闹钟。语音导航，开车的时候语音导航能告诉车主怎么走，前方是否堵车。智能手机助手，现在很多手机里都有语音助手，比如说嘿siri或小爱同学，他们能帮你设提醒、查信息，甚至跟你闲聊。这些都是智能语音技术在我们身边的应用。刚才我们看到了很多智能语音的应用，比如智能手机助手。现在让我们来了解一个重要技术，语音识别。看看这个大家很熟悉的画面，这是手机上的语音输入功能。当我们不方便用手指打字时，比如手上拿着东西或者想快速发一条很长的信息，我们就可以用语音输入。语音识别技术会把我们说的话转变成文字。当我们使用聊天软件时，还可以利用语音转文字功能，这个功能通过语音识别技术将我们说的话转换成文字。即使在不方便听语音的地方，我们也能利用这个功能阅读消息。再来看一个常见的语音识别例子，智能音箱。比如跟小米智能音箱说，小爱同学播放一首歌叫少年中国说。智能音箱听懂语音命令，回答道，好的，为你播放张杰的少年中国说。这个例子说明语音识别技术不仅能听懂我们说的话，还能理解并且执行指令。语音识别是怎么做到的呢？语音识别是计算机将人类语音信号转化为可处理的文本或指令的技术，其核心目标在于模仿人类听觉系统，实现机器对自然语言的理解。这项技术就像是给计算机装上了一双耳朵和一个大脑，让他可以听我们说话，然后理解我们的意思。当我们说话时，语音识别系统会经历以下几个步骤，第一步，语音输入，我们说出的声音被麦克风采集，转化成声音信号。第二步，特征提取，系统会听我们的语音，从中提取出关键的语音特征，比如音调、频率和语速等。第三步，声学模型匹配。提取到的特征会与系统中已有的声学模型进行对比，比如一个音节的音频特征与不同发音的样本进行匹配。第四步，语言模型匹配。接下来系统会根据上下文和语言规律，从多个可能的文字组合中选出最符合逻辑的一种。这就是语音识别从声音到文字的基本过程。我们说普通话系统能很好的识别，那如果我们说的是方言语音系统还能识别出来吗？同学们可以尝试一下在通讯软件中使用语音输入功能说一段方言，看看系统能不能正确的识别成文字。这背后其实是语音识别系统在处理不同语音变体如方言时的准确性问题。这不仅与技术模型的训练数据有关，也与语言模型对语音特征的适应能力密切相关。在语音输入时，如果用户说的是方言，系统有可能识别不准确。那么接下来请大家以小组为单位思考与讨论，除了方言，还有哪些因素可能会影响语音识别的准确率。人工智能不仅能听懂人说的话，还可以通过语音合成技术开口说话。比如我们在听电子书时，设备就是通过语音合成技术，把书里的文字变成了声音。那什么是语音合成呢？语音合成技术是指机器将文字转化成语音的技术，让机器像人一样说话。而且随着人工智能的不断发展，现今基于大模型全新升级的语音合成，不仅让音色拥有更高的自然度，还能够依据上下文智能预测文本的情绪、语调等信息，进而自动匹配与之相应的情感表达。比如之前课堂导入中提到的智能客服、智能音箱、语音导航、智能手机助手，都是语音合成技术的应用。下面请同学们分小组完成语音合成的典型应用，智能手机助手对于提问的回答，并完成这个学习任务单。问题一，明天北京的天气怎么样？问题2，圆周率的小数点后十位是什么？问题3，我今天有点难过，你可以安慰我吗？接下来我们要进入一个小组游戏环节，听声识人，你们准备好了吗？活动规则，分组挑战，以小组为单位派出一名代表蒙住眼睛倾听辨别。小组成员分别朗读同一段文字，猜猜是谁，让蒙住眼的同学猜猜是谁。奖励机制，猜对一个小组加一个赞。在活动过程中，同学们可以一边参与一边思考，为什么我们能通过声音猜出是哪个同学呢？人类的声音包含多种特征，如音色、音高、语调、说话习惯等，通过这些特征可以辨别说话人身份。其实不只是人类可以听声识人，人工智能同样可以通过分析声音中的特征来判断说话者是谁，机器也可以通过声音特征识别人。在人工智能领域通常叫声纹识别技术。下面我们通过一段视频来了解一下声纹识别的应用。记者从平安科技了解到，在银行、产险、养老险、不动产等领域，普遍存在通过电话客服或手机应用端进行相关业务的场景。而在实际操作中，不法分子冒充当事人进行骗保，以及部分借款人利用虚假信息伪冒开卡等情况时有发生。比如说这个银行或者是这个保险，它的这个电话坐席。在这种场景下你是没有办法看到这个人是谁，也不知道他长成什么样子，具体谁打电话也不清楚，然后就会出现说有人代打电话或者是替打电话各种的行为发生。这个声纹手段它是一个比较好的补充。据了解，声纹识别是将声信号转换成电信号，使用计算机通过相关算法进行比对识别的技术。声纹可以通过电话、APP等渠道传达语音到后台，并在用户语音对话过程中自动完成识别，使用成本低而且方便快捷。其实每个人的发声的过程包括两部分，一个是声带的震动以及声道的一个谐振。每个人的从鼻腔、口腔这些以及声道的一些特征的不同，到声道的谐振，它体现在一个共振风。每个人在这个共振峰，在整个发音过程中，它的分布是不一样的。如果说我们能建立好这个分布，那每个人的特征就会有有一有一定的。微信不过。生活中声音相似的人有很多，有些配音演员还可以模仿他人的声音，用声纹作为金融服务的辅助认证手段，其安全性有多少呢？专家表示，经过模仿或者合成过的声音，虽然在听觉上相似，但也无法模仿说话者最本质的特性，从声纹特征分析上还是会有差异，是可以区别开来的。不要喝那么多酒不要喝那么多酒。如果我们仔细分析它的语音特征的话，其实可以发现原始语音的话，它的低频会比较清晰，高频会比较有有较多的噪声。然后在合成音的话，其实我们在低频的话，其实它的谐波结构会更加明显。以及它本身发音的节奏可也会不太一样。比如说它的停顿点可能会不太一样，这样的话造成了它的声纹是有区别的。专家表示，根据公安部发布的相关标准，声纹科技产品严格按照标准进行数据采集，如果用户按照事先指定的文本读出内容，声纹识别准确率可达99%。虽然准确率不低，但仍然存在误判的可能，需看具体场景而定。对于辅助核实身份、声纹锁登录等场景使用是合适的。但在大额支付类的场景中，则需充分评估风险，利用多种手段保证安全。什么是声纹识别？声纹识别就像声音的身份证，声纹识别也叫说话人识别，是一种通过分析语音中的声学特征来确认或辨认说话人身份的生物识别技术。核心在于每个人的发音器官，如声带、口腔、鼻腔等，在形态和功能上的差异，会形成独特的声纹图谱，具有相对稳定性和唯一性。声纹识别究竟是怎么工作的呢？可以分为四个主要步骤，采集声音、特征提取、声纹匹配和说话人识别。第一步，采集声音。首先我们需要通过麦克风来采集声音，当你对着麦克风说话时，你的声音会被转换成电信号。第二步，特征提取，将从声音信号中提取出一些特殊的特征，比如音调、音色等。第三步，声纹匹配。提取出特征之后，电脑会把这些特征与之前存储在数据库中的声纹信息进行对比。最后一步就是说话人识别了，经过前面的比对，机器就能确定这段声音是谁发出的这就是声纹识别的核心流程。那么声纹识别的准确性如何呢？请各小组成员加入同一个线上会议平台，如腾讯会议围绕主题，同一个人尝试使用不同的声线说话。AI会议纪要功能能否准确识别进行讨论，并且尝试让同一个人用不同的声线说话。观察AI会议记录功能是否能够准确识别说话人身份，同时确保开启AI会议纪要功能以便记录讨论内容。这就模拟了一次真实的线上语音识别实验，之后大家可以在交流活动中记录AI识别结果的准确性和差异。通过这种方式，我们可以更直观的理解说话人识别技术的工作原理，以及语音识别系统在处理不同声线语调或发音习惯时的表现差异。通过前面的语音识别、语音合成和声纹识别的了解，可以知道智能语音技术已经广泛应用于我们生活中，这些技术都让我们的生活变得更加便捷和高效。但是给予便利的同时也存在一些风险，比如可能会收集和存储大量的个人语音数据，如果这些数据被不当使用或泄露，将会对我们的隐私造成威胁。因此，发展技术的同时也要加强隐私保护，重视技术防范，树立反诈意识和安全意识。下面我们将通过一个连线活动，进一步深入了解这些风险的具体表现。我们将一起把左侧的风险类别与右侧的具体问题进行连线，能帮助我们更好的理解智能语音技术可能带来的挑战。未经授权的数据采集是隐私与数据滥用风险的具体表现。深度伪造与身份盗用是技术滥用与社会信任危机的表现。语音识别歧视是算法偏见与公平性缺失的表现。内容过滤不足也是算法偏见与公平性缺失的表现。人际沟通弱化是人际关系异化的表现。虚假信息传播是隐私和数据滥用风险的表现，信任机制瓦解是技术滥用与社会信任危机的表现。跨境数据治理难题是法律与监管滞后的表现，责任归属模糊同样也是法律与监管滞后的表现。情感操纵风险是人际关系异化的表现。本节课的AI听说之旅，我们主要从感知语音识别技术、感知语音合成技术和感知声纹识别技术。也就是说话人识别技术三个方面的应用概念过程进行了了解。相信同学们对这三种智能语音技术有了初步认知，接下来进入智慧挑战第一题单选题。下面活动中应用了智能语音技术的是答案选C夜间起床说声开灯夜灯就亮了。通过语音指令控制设备是智能语音技术的应用，其他选项均未涉及语音交互，故选C第二题单选题关于智能语音技术，下面不正确的说法是答案选B语音技术是多媒体技术的子集，涉及语音识别与合成。而多媒体技术包含更广泛的媒体形式，如图像、视频等，不能等同ACD均正确描述语音技术。最后让我们通过一段大模型智能语音应用视频，来看看给我们现代生活带来的新奇体验。小爱同学，我在播放热门歌曲，这是关闭后面你认识的小爱座椅加热，现在来认识一个更懂你的小爱你的，这些细节只有他能懂。后视镜往下10%，HED往左一点，座椅调到最后停下，停下了。甚至跨界的想法他也能心领神会，我的手机掉哪了？打开家里的扫地机器人，打开家里的摄像头。小爱同学，我在打开手机付款码，完成了搭载AI大模型的他无所不知。有没有离鬼街和望京都很近的川菜馆？为你找到了十佳位置合适的川菜馆。介绍一下七坊三巷是三坊七巷，前面的车是什么车？我来看看。甚至它可以像人一样观察，是橄榄绿的小米酥。7、满足你的所有好奇。桥有多少年历史？前面的山是什么山？金庸小说里哪些重要？这就是全新的小爱，更懂车的事，更懂设备的事，更懂你好奇的事。全新小爱大模型智能语音。本节课到此结束，感谢大家的聆听，我们下节课见。

所属专辑

学科

人工智能课（课件+学习任务单+AI数字人讲解视频）-初中信息科技

初中信息科技普通专辑 54 份文档

14783人已阅读