内容正文:
今天这节课我们要一起踏上AI听说之旅项目主题,探寻智能语音的应用,一起了解智能语音技术的应用。大家准备好了吗?我们开始,本节课依然从以下六个模块展开,现在我们要来看看今天的学习目标。第一个感知语音识别技术及其应用,这是什么呢?就是人工智能怎么听懂我们说的话。第二个目标,感知语音合成技术及其应用,AI如何开口说话的秘密。第三个目标,感知声纹识别,也就是说话人识别技术及其应用。这个技术可厉害了,它能通过声音判断是谁在说话。其实智能语音技术已经围绕在我们生活的日常中。比如普通话测试,用手机或电脑来练习普通话,电脑会听你说的话,然后告诉你发音对不对。智能客服,当我们在网上遇到问题需要帮助时,有时候会有机器人客服来回答我们的问题,他能听懂我们的提问并给出回答,智能音箱,像小度、天猫精灵这些,我们可以对他们提问,他就会回答我们,非常方便在我们坐车时的语音导航,智能手机助手,他们能听懂我们的指令,这些都是智能语音技术在我们身边的应用,是不是很神奇,接下来我们就要一起体验探索刚才我们看到了很多智能语音的应用,比如智能手机助手,现在让我们来了解第一个重要技术,语音识别同学们你们有没有看到过爸爸妈妈使用语音输入呢?当不方便用手指打字时,比如手上拿着东西或者想快速发一条很长的信息,我们就可以用语音输入。语音识别技术会把我们说的话转变成文字。在聊天软件里可以使用转文字功能把语音消息变成文字。即使在不方便听语音的地方,我们也能知道对方说了什么。我们再来看一个非常常见的语音识别例子,智能音箱。比如跟小米智能音箱说,小爱同学播放一首歌叫少年中国说。智能音箱听懂语音命令,回答道,好的,为你播放张杰的少年中国说。这就是语音识别在起作用了,他先听懂你说的内容,再执行你说的指令。语音识别是怎么做到的呢?语音识别是计算机将人类语音信号转化为可处理的文本或指令的技术,其核心目标在于模仿人类听觉系统,实现机器对自然语言的理解。它能像人耳一样听,再像我们的大脑一样理解。语音识别的过程是怎样的呢?首先我们先说话,进行语音输入。其次特征提取AI开始认真听,他会从我们说的话里找出重点声音特征。然后声学模型匹配AI拿出他的语音字典,一个音一个音的对照,看看我们说的像哪些字。最后语言模型匹配,大家可以大胆猜一猜,如果我们说普通话系统很容易识别,那如果我们用家乡话方言来说,他还能认出来吗?同学们可以试一试用方言在通信软件进行语音输入,还能准确识别为正确的文字吗?在通信软件上用方言进行语音输入,会发现识别不够准确。那么接下来请大家分小组探究有可能影响语音识别准确度的因素还有哪些?人工智能应用除了能听懂我们说话,还能回答我们。接下来我们就要来看看另一个超厉害的技术,AI怎么开口说话,也就是语音合成。比如有声读物将书籍内容转换为语音,这就是语音合成的音。那什么是语音合成呢?语音合成技术是使机器将文字转化成语音的技术,让机器像人一样说话。而且随着人工智能的不断发展,现今基于大模型全新升级的语音合成,不仅让音色拥有更高的自然度,还能够依据上下文智能预测文本的情绪、语调等信息,进而自动匹配与之相应的情感表达。比如之前课堂导入中提到的智能客服、智能音箱、语音导航、智能手机助手都是语音合成的应用。下面请同学们分小组完成语音合成的典型应用智能手机助手对于提问的回答,并完成这个学习任务单。问题一,明天北京的天气怎么样?问题,圆周率派的小数点后十位是什么?问题3,我今天有点难过,你可以安慰我吗?接下来我们要进入一个有趣的活动环节,听声识人,你们准备好了吗?一分组挑战,以小组为单位派出一名代表蒙住眼睛。2、倾听辨别,小组成员分别朗读同一段文字。三猜猜是谁,让蒙住眼的同学猜猜是谁。四奖励机制,猜对一个小组加一个赞。在活动过程中,同学们可以一边参与一边思考,为什么我们能通过声音猜出是哪个同学呢?其实每个人的声音都有自己独特的特征,人可以通过声音特征识人,其实人工智能机器也可以通过声音特征识别人,吸气也可以通过声音特征识别人。在人工智能领域通常叫声纹识别技术。下面我们通过一段视频来了解一下声纹识别的应用。记者从平安科技了解到,在银行、产险、养老险、不动产等领域,普遍存在通过电话客服或手机应用端进行相关业务的场景。而在实际操作中,不法分子冒充当事人进行骗保,以及部分借款人利用虚假信息伪冒开卡等情况时有发生。比如说这个银行或者是这个保险,它的这个电话坐席。在这种场景下你是没有办法看到这个人是谁,也不知道他长成什么样子,具体谁打电话也不清楚,然后就会出现说有人代打电话或者是替打电话各种的行为发生。这个声纹手段,它是一个比较好的补充。据了解,声纹识别是将声信号转换成电信号,使用计算机通过相关算法进行比对识别的技术。声纹可以通过电话、APP等渠道传达语音到后台,并在用户语音对话过程中自动完成识别,使用成本低,而且方便快捷。什么是声纹识别?声纹识别就像声音的身份证。声纹识别也叫说话人识别,是一种通过分析语音中的声学特征来确认或辨认说话人身份的生物识别技术。核心在于每个人的发音器官,如声带、口腔、鼻腔等在形态和功能上的差异,会形成独特的声纹图谱,具有相对稳定性和唯一性。声纹识别究竟是怎么工作的呢?声纹识别的过程可以分为四个主要步骤,采集声音特征提取、声纹匹配、说话人识别。首先,我们需要通过麦克风来采集声音,当你对着麦克风说话时,你的声音会被转换成电信号。第二步,特征提取将从声音信号中提取出一些特殊的特征,比如音调、音色等。第三步,声纹匹配。提取出特征之后,电脑会把这些特征与之前存储的声纹信息进行对比。最后一步就是说话人识别了,经过前面的比对,电脑就能确定这段声音是谁发出的。那么声纹识别的准确性如何呢?让小组成员都加入到我们的讨论中来,打开腾讯会议入会,同时打开AI会议纪要功能,这就像是一次线上聚会,大家可以互相交流,讨论主题是同一个人尝试使用不同的声线说话。AI会议纪要功能能否准确识别。这样我们可以实时看到AI是如何处理和记录这些不同声线的。记得在讨论结束后,大家一起回顾一下AI的记录,看看它是否准确无误。通过前面的语音识别、语音合成和声纹识别的了解,可以知道智能语音技术已经广泛应用于我们生活中,这些技术让我们的生活变得更加便捷和高效。但是给我们给予便利的同时也存在一些风险,比如可能会收集和存储大量的个人语音数据,如果这些数据被不当使用或泄露,将会对我们的隐私造成威胁。因此,发展技术的同时也要加强隐私保护,重视技术防范,树立反诈意识和安全意识。下面我们将通过一个有趣的连线活动,进一步深入了解这些风险的具体表现。我们将一起把左侧的风险类别与右侧的具体问题进行连线,这不仅是一个有趣的游戏,还能帮助我们更好地理解智能语音技术可能带来的挑战。未经授权的数据采集是隐私与数据滥用风险的具体表现。为深度伪造与身份盗用是技术滥用与社会信任危机的表现。语音识别歧视是算法偏见与公平性缺失的表现,内容过滤不足也是算法偏见与公平性缺失的表现。人际沟通弱化是人际关系异化的表现,虚假信息传播是隐私和数据滥用风险。信任机制瓦解是技术滥用与社会信任危机的表现,跨境数据治理难题是法律与监管滞后的表现,责任归属模糊同样也是法律与监管滞后的表现。情感操纵风险是人际关系异化的表现。本节课的AI听说之旅,我们主要从感知语音识别技术、感知语音合成技术和感知声纹识别技术。也就是说话人识别技术三个方面的应用概念过程进行了了解,同学们整体也有了初步的认知。接下来进入智慧挑战环节,第一题单选题,下面活动中应用了智能语音技术的事,想一想答案选C夜间起床说声开灯夜灯就亮了。通过语音指令控制设备是智能语音技术的应用,其他选项均未涉及语音交互互选。C第二题单选题,关于智能语音技术,下面不正确的说法,答案选B语音技术是多媒体技术的一部分,涉及语音识别与合成,而多媒体技术包含更广泛的媒体形式,如图像、视频等,不能等同AC帝君正确描述语音技术。最后让我们通过一段大模型智能语音应用视频来结束本节课。小爱同学,我在播放热门歌曲,这是关闭后面你认识的小打开座椅加热,现在来认识一个更懂你的小爱你的这些细节只有他能懂。后视镜往下10%,HUD往左一点,座椅调到最后停下。甚至跨界的想法他也能心领神会。我的手机掉哪了?打开家里的扫地机器人,打开家里的摄像头。小爱同学,我在打开手机付款码,完成了搭载。AI大模型的他无所不知。有没有离鬼街和望京都很近的川菜馆?为你找到了十佳位置合适的川菜馆。介绍一下七方三相是三坊七巷,前面的车是什么车?我来看看。甚至它可以。像人一样观察。是橄榄绿的小米酥。7、满足你的所有。好桥有多少年历史?前面的山是什么山?金庸小说里哪些重要?这就是全新的小爱,更懂车的事,更懂设备的事,更懂你好奇的事。全新小爱大模型智能语音。本节课到此结束,感谢大家的聆听,我们下节课见。