第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息技术八年级下册

2026-05-14
| 30页
| 7人阅读
| 0人下载
普通

资源信息

学段 初中
学科 信息科技
教材版本 初中信息科技浙教版八年级下册
年级 八年级
章节 第6课 语音合成技术
类型 课件
知识点 -
使用场景 同步教学-新授课
学年 2026-2027
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 PPTX
文件大小 5.32 MB
发布时间 2026-05-14
更新时间 2026-05-14
作者 xkw_082834393
品牌系列 -
审核时间 2026-05-14
下载链接 https://m.zxxk.com/soft/57871163.html
价格 1.00储值(1储值=1元)
来源 学科网

内容正文:

《语音合成技术》教学课件 浙教版初中信息技术 · 八年级下册 1.7.2013 同学们好!欢迎来到今天的信息技术课堂。我们每天都在和各种智能设备打交道,它们能听懂我们说话,甚至还能和我们对话。今天,我们就来揭开一项让机器能说会道的神秘技术——语音合成技术的面纱。 ‹#› 情境导入 - 声音的对比 🎧 听一听,有什么不同? 真人朗读 “床前明月光,疑是地上霜。举头望明月,低头思故乡。” 这是一段由真人朗读的古诗,语调自然,充满情感,有明显的停顿和重音,听起来非常亲切自然。 机器朗读 “床前明月光,疑是地上霜。举头望明月,低头思故乡。” 这是一段由计算机合成的语音。仔细听,它和真人朗读有什么不一样?是不是感觉有些生硬、平淡,缺少了一些情感起伏和文学韵味? 🤔 思考一:第二段机器朗读的音频听起来感觉如何?它的声音是怎么产生的? ❤️ 思考二:你更喜欢哪一个版本?为什么?如果让机器像人一样说话,需要具备什么能力? 1.7.2013 在上课之前,我们先来听两段声音。第一段是真人朗读的古诗,第二段是机器朗读的。大家仔细听,感觉有什么不同?机器朗读的声音是怎么产生的呢?通过这个对比,我们可以直观地感受到,机器说话和真人说话还是有区别的。这节课,我们就来探索语音合成背后的奥秘。 ‹#› 情境导入 - 生活中的声音 这些声音,你熟悉吗? 车载导航| “前方500米右转,进入XX路。” 公交报站| “下一站,人民广场,请准备下车。” 听书软件| “欢迎来到XX听书,今天为您播讲的是《三体》第一部。” 智能音箱| “好的,已为您播放音乐。” 思考与讨论:这些场景中的声音都是真人录制的吗?如果不是,它们是怎么来的?你还在哪里听过类似的机器生成的语音? 1.7.2013 其实,机器说话的声音在我们的生活中无处不在。比如开车时的导航、坐公交时的报站、用手机听书,还有和智能音箱对话。这些声音都非常方便,但它们都是真人录制的吗?显然不是。那么,这些声音到底是怎么来的呢?这就是我们今天要学习的内容。 ‹#› 揭示课题:揭开“机器说话”的神秘面纱 刚才我们听到的这些“机器声音”,都来自于一项神奇的AI技术——语音合成技术。它与我们上节课学习的“语音识别技术”正好相反:语音识别让机器“听懂”我们,而语音合成让机器“开口”回应。 语音识别 (ASR) 语音 → 文本 / 指令 (让机器能听) 语音合成 (TTS) 文本 → 语音 (让机器能说) ⚡ 两者结合,构成完整的智能语音交互闭环 ⚡ 01 理解原理 语音合成是如何工作的? 02 掌握操作 如何让电脑朗读文字? 03 学会应用 能为生活带来什么便利? 04 树立责任 如何安全、正确地使用? 1.7.2013 没错,这些声音都来自于“语音合成技术”。它和我们之前学的语音识别技术正好相反,一个让机器能听,一个让机器能说。两者结合,就形成了完整的智能语音交互。这节课,我们将围绕这四个目标,深入学习语音合成技术。 ‹#› 什么是语音合成技术? ▍核心定义 语音合成技术 (Text-to-Speech, TTS),也叫“文语转换技术”,是一种利用计算机模拟人类发音,将文本信息转换成自然流畅语音的人工智能技术。 简单来说,就是让机器能说会道。 ▍核心要素 输入 文字、数字 标点符号等 过程 复杂的 算法分析处理 输出 可听见的 自然语音音频 输入 Input 任意格式的 纯文本信息 处理 Process 声学模型与 语言学模型分析 输出 Output 合成语音 波形音频 1.7.2013 那么,到底什么是语音合成技术呢?它的英文名叫TTS,简单来说,就是让机器能说会道的技术。它的工作原理很简单,输入文本,经过计算机处理,最后输出我们能听到的声音。这个过程听起来简单,但背后却包含了复杂的技术。 ‹#› 语音合成的工作流程(总览) 机器是如何“朗读”一篇文章的? 01 看稿子 (文本分析) 就像播音员看稿子一样,先看清楚每一个字、标点符号和数字,为接下来的发音做好准备。 02 断句子 (分词处理) 理解句子的结构和含义,准确判断词语之间的界限,以及在朗读时应该在哪里停顿。 03 带感情 (韵律处理) 赋予语音生命力,确定哪里该重读、哪里该轻读,以及使用升调还是降调,让朗读更自然。 04 发声音 (语音生成) 最后一步,运用声学模型,将前面处理好的文本转化为声波信号,最终输出清晰流畅的声音。 1.7.2013 机器朗读文章的过程,和我们人类非常相似。我们可以把它想象成四个步骤:首先是“看稿子”,也就是文本分析;然后是“断句子”,即分词处理;接着是“带感情”,也就是韵律处理;最后才是“发声音”,即语音生成。接下来,我们将对这四个步骤进行详细的解析。 ‹#› 流程详解① - 文本分析 第一步:文本分析(看懂稿子) 01 识别内容 对输入的原始文本进行“标准化”处理,精准区分并识别中文、英文、数字、标点符号及特殊符号(如@、#等),为后续处理打好基础。 02 格式转换 将非自然语音内容转化为标准读音: • 数字“123” → “一百二十三” • 年份“2026” → “二零二六年” 确保语音输出的自然与准确。 03 处理缩写 识别并还原常见的英文缩写,避免机器读出无意义的字母: • 称谓“Mr.” → “先生” • 省略“etc.” → “等等” 通俗类比:就像我们朗读前,先把文章里的数字、英文缩写、生僻符号都认清楚并在脑海里翻译成日常读音,确保开口朗读时不会磕磕绊绊、读错意思。 1.7.2013 第一步是文本分析,就像我们朗读前先看懂稿子。计算机需要识别文本中的各种内容,比如数字、英文、标点符号,并把它们转换成标准的读音。比如,把数字“123”转换成“一百二十三”,把缩写“Mr.”转换成“先生”。这一步是保证语音准确的基础。 ‹#› 流程详解② - 分词处理 第二步:分词处理 —— 让机器读懂语言的第一步 🎯 核心任务 将连续的、无间隔的文本流,按照中文的语法规则和语义逻辑,精准切分成一个个独立的词语或短语,为后续处理打好基础。 ✨ 为什么重要? 这是决定语音合成是否流畅、语义理解是否正确的关键前提。如果断句错误,不仅听起来非常别扭,甚至会导致意思完全改变,产生歧义。 📝 断句对比 ✅ 正确:“我们 / 应该 / 尊重 / 每一个人” ❌ 错误:“我们应 / 该尊重 / 每一个人”(听起来很不自然) 🗣️ 通俗类比 这就像我们平时朗读文章时,会根据词语的含义在不同的位置做短暂的“停顿”一样,机器也需要学会这种“节奏感”,而不是一口气把所有字连在一起读。 1.7.2013 第二步是分词处理,也就是正确断句。这一步非常关键,直接决定了语音是否流畅。比如这句话,正确断句和错误断句,听起来感觉完全不同。计算机需要像我们一样,理解语法规则,在正确的地方停顿,这样才能让语音听起来自然。 ‹#› 流程详解③ - 韵律处理(注入灵魂) 第三步:韵律处理(让声音有感情) 核心任务:根据文本内容和情感,确定语音的节奏、重音、停顿和语调。这是让机器说话“像人”的核心难点。 💡 类比:这就像一位优秀的演员,根据剧本表达不同的情绪。 停顿 标点符号处的停顿,句子间的间隔。 重音 关键词的强调,如“我没说他偷了我的钱”。 音调 疑问句用升调,陈述句用降调。 语速 激动时语速快,悲伤时语速慢。 情感 高兴、悲伤、严肃、惊讶等情绪。 1.7.2013 第三步是韵律处理,这是让机器说话“像人”的核心难点,也是为声音注入灵魂的一步。它包括停顿、重音、音调、语速和情感等多个方面。同样一句话,重音不同,意思可能完全相反。如何让机器理解并表达这些复杂的情感,是科学家们一直在努力攻克的难题。 ‹#› 难点突破 - 韵律的魔力 对比体验:韵律如何决定语音的“灵魂” 场景一:严肃提醒 · “请不要随地吐痰!” ❌ 平淡陈述:“请 · 不 · 要 · 随 · 地 · 吐 · 痰。” (一字一顿,毫无感情,像读课文) ✅ 严肃强调:“请不要随地吐痰!” (重音在“不要”,降调结尾,语气坚定有力) 场景二:欢快描述 · “春天来了,花儿开了!” ❌ 平淡陈述:“春 天 来 了,花 儿 开 了。” (平铺直叙,毫无生机) ✅ 喜悦欢快:“春天来了^,花儿开了^!” (明显的升调起伏,语速轻快,充满画面感) 核心洞察:很多时候我们觉得机器声音“生硬、冰冷、像机器人”,根本原因往往不是发音不准,而是韵律模型不够智能。优秀的韵律处理能赋予语音情感与生命力,实现“声情并茂”的表达。 1.7.2013 我们来看两个直观的例子。同样一句话,不同的韵律处理带来的体验是截然不同的。 左边的例子中,同样是一句禁止性的提醒,如果平淡地读出来,会让人觉得有气无力,起不到警示作用;而如果在“不要”上加重音,结尾用降调,语气立刻变得严肃、坚定,更有说服力。 右边的例子里,描述美好的春天,如果平铺直叙,毫无起伏,会让人觉得枯燥乏味;但加上轻快的语速和上扬的语调,喜悦之情就跃然“声”上,听众也更容易产生画面感。 这就引出了我们今天的核心洞察:很多时候我们觉得机器声音“生硬”,其实并不是它的咬字有问题,而是因为韵律处理得不够自然、不够贴合语境。韵律,就是语音的灵魂。 ‹#› 流程详解④ - 语音生成 第四步:语音生成(发出声音) 核心任务 根据前面分析好的文本、断句和韵律信息,从“语音库”中取出最基本的语音单元(比如一个音素或一个音节),然后将它们无缝地拼接、合成为最终的语音波形。 技术揭秘 • 语音库:一个存储了大量真人发音片段的数据库,就像一个巨大的声音素材库。 • 拼接与合成:计算机像搭积木一样,把这些小的声音片段组合起来,形成完整的句子。 趣味类比 这就像我们说话时,大脑发出指令,通过精密控制声带的振动、舌头的卷曲和嘴唇的开合,来精准地发出一个个清晰的音节,再连成流畅的句子。 1.7.2013 最后一步是语音生成。在完成了前面的分析和处理后,计算机就开始“发声”了。它会从一个巨大的“语音库”中,取出一个个最基本的声音片段,像搭积木一样把它们拼接起来,最终形成我们听到的完整语音。 ‹#› 技术发展之路(一) 语音合成技术的进化史 · 从机械装置到智能算法 01 机械时代 18世纪 - 1930s “语音合成技术的 史前探索与启蒙” 代表装置 1779年 克拉钦斯坦的原始语音装置; 18世纪末 冯·凯佩伦设计的“口语机”。 核心原理 通过齿轮、风箱等精密机械结构,物理性地模仿人的喉咙、声道和嘴巴等发音器官的振动与形状。 主要特点 • 体积庞大,结构复杂,操作门槛极高 • 发音极度有限,仅能发出简单元音和单词 • 无实际应用价值,实用性极低 历史评价 这一时期的尝试被称为“史前探索”。这些装置更像是精巧的科学玩具,主要用于展示发音的物理原理,而非真正的信息传递工具。 1.7.2013 语音合成技术并非一蹴而就,它经历了漫长的发展历程。最早可以追溯到18世纪的机械时代。当时的科学家们试图用机械装置模仿人的发音器官,但这些装置体积庞大,效果也很差,更像是科学玩具。虽然没有实用价值,但这一时期的探索为后来的技术奠定了重要的声学和语言学基础。 ‹#› 技术发展之路(二) 语音合成技术的进化史 第二阶段:电子时代 (1930s - 2010s) 代表:1939年贝尔实验室Voder电子合成器;早期电话语音报时、电子词典发音。 原理:以数学公式模拟人声的“参数合成”,或拼接音节的“拼接合成”。 特点:声音有明显的“机器腔”,语调平坦无感情,字与字之间有明显的拼接痕迹。 评价:被称为“机器人的独白”。虽然在语义上能听懂,但在听觉体验上“不好听”。 1.7.2013 进入电子时代,语音合成技术有了进步。早期的电话语音报时、电子词典发音都属于这个阶段。但它们的共同特点是声音有明显的“机器腔”,语调平坦,没有感情,我们能听懂,但听起来并不悦耳。 ‹#› 技术发展之路(三) 语音合成技术的进化史 ·AI时代 (2016年 - 至今) 里程碑 2016年,谷歌 DeepMind 团队发布了革命性的WaveNet模型,标志着语音合成技术正式迈入AI时代,为后来的技术奠定了基石。 核心原理 采用基于深度神经网络的端到端模型架构,摒弃了传统的拼接与参数合成,直接从文本生成最原始的声音波形,从底层重构了声音生成逻辑。 技术特点 生成语音流畅自然,听感上已极难与真人区分。支持灵活模拟不同的音色、情感色彩与地域口音,极大丰富了语音的表现力。 行业评价 被业内称为“自然人的诞生”。实现了语音合成从早期“能发声”,到中期“像真人”,再到如今“懂情感、有个性”的质的飞跃。 1.7.2013 真正的革命性突破发生在2016年,随着人工智能技术的发展,特别是谷歌WaveNet模型的发布,语音合成技术进入了AI时代。现在的技术可以直接生成原始的声音波形,让合成语音非常流畅自然,甚至可以模拟不同的音色和情感,实现了从“能发声”到“像真人”的飞跃。 ‹#› 实践任务 - 基础合成 动手试一试:让电脑为你读诗 任务目标 熟悉并使用主流在线语音合成平台,完成从“输入古诗文本”到“生成语音音频”的基础文本转语音(TTS)全流程操作。 推荐工具 • 百度AI开放平台 (EasyDL) • 讯飞听见 / 讯飞开放平台 1 打开平台 浏览器搜索进入“文本转语音”功能页 2 输入文本 在输入框录入古诗《望岳》全文 3 选择参数 尝试调整不同的音色、语速与音调 4 合成并试听 点击生成,即时聆听AI朗读效果 5 保存成果 将调整至满意的语音效果下载并保存为本地音频文件。 1.7.2013 理论知识学完了,现在让我们动手实践一下。大家可以打开浏览器,搜索“百度AI开放平台”或“讯飞听见”,找到文本转语音的功能。然后输入一首古诗,尝试调整不同的音色、语速和音调,听听电脑为你读诗是什么感觉。 ‹#› 实践任务 - 参数调整 探索参数:让声音更动听 古诗《望岳》 配置:温柔女声 · 中速 · 中调 效果:语音比较自然流畅,但缺少了诗歌应有的磅礴气势和抑扬顿挫。 💡 建议:尝试适当降低语速,提高音调,以突出韵律美。 日常通知场景 配置:阳光男声 · 稍快 · 中调 效果:吐字清晰明了,节奏干脆利落,非常适合学校或公司的日常通知场景。 ✅ 结论:当前参数表现优秀,无需额外调整。 儿童故事片段 配置:可爱童声 · 慢速 · 音调稍高 效果:声音活泼生动,充满童趣感,非常能吸引小朋友的注意力。 💡 建议:可以尝试增加语音的情感起伏,让故事更有画面感。 🤔 思考时刻:为什么朗读古诗时,我们通常会放慢语速、加重音调? 这是因为古诗词本身具有独特的韵律美和节奏感,需要适当的语速停顿来给听众留下想象空间,并通过音调的起伏变化来传达诗词中的情感和意境,使其更具感染力。 1.7.2013 在实践中,大家会发现不同的参数设置会带来截然不同的效果。比如朗读古诗,我们可能需要放慢语速、提高音调来体现意境。而日常通知则需要清晰明了。大家可以通过填写这个记录表,来探索如何让声音更动听,更符合内容的情境。 ‹#› 拓展实践 - 创意创作 创意挑战:制作你的专属语音作品 任务一:制作“校园广播通知” 🎬 场景:假设你是校园广播员,需要录制一则正式的通知,向全校师生传递消息。 🎯 核心要求:通知本周五下午将举行春季运动会,请各班做好准备。音色需正式、清晰,语速适中,情感上要传递出对运动会的鼓励与期待。 任务二:制作“有声读书笔记” 📖 场景:为你最近阅读的一本书,录制一段个性化的有声推荐,分享给你的同学或朋友。 🎯 核心要求:清晰介绍书名与作者,并分享你最喜欢的一个片段或个人感悟。音色保持个人风格,语速与情感基调可根据分享内容灵活调整。 1.7.2013 掌握了基础操作后,我们来进行一个创意挑战。大家可以选择两个任务中的一个:一是制作一则校园广播通知,二是制作一段有声读书笔记。请大家根据不同的场景和内容,选择合适的音色、语速和情感,创作出属于你自己的语音作品。 ‹#› 实践分享与评价 01 小组分享 在小组内播放你的作品,向大家介绍你创作时的整体思路,以及在音色、语调、语速等关键参数上的考量与选择。 02 同伴评价 •清晰度:是否字字清晰,无模糊或断音? •自然度:语气语调是否流畅自然,不生硬? •情感匹配度:语音的情绪与文本内容契合吗? 03 共同优化 基于分享和评价,互相提出针对性的改进建议。例如:“这部分的语速可以放缓一点”、“这里可以加重语气来突出重点”。 🎯 活动目标 通过小组内的交流、反馈与协作,积累实战经验,从而共同提升语音合成的应用技巧,并激发AI创作的更多灵感与创新能力。 1.7.2013 创作完成后,我们来进行小组分享和评价。大家可以在小组内播放自己的作品,并介绍创作思路。其他同学可以从清晰度、自然度和情感匹配度等方面进行评价,并提出改进建议。通过交流和反馈,我们可以共同进步。 ‹#› 案例分析 - 生活服务 语音合成的应用(一):融入生活的方方面面 车载导航与智能座舱 解放双手,让驾驶更安全。通过智能语音交互,无需手动操作即可查询路线、控制车内设备。 智能客服 提供7x24小时不间断在线服务,快速识别用户意图,用自然流畅的声音解答常见业务问题。 听书软件 / 有声读物 让我们可以在开车、运动、做家务等双眼被占用的场景下,也能享受“阅读”的乐趣,高效利用碎片时间。 地图APP语音播报 提供清晰、及时、情感化的路线指引,帮助用户在陌生路段也能从容驾驶,大幅提升出行体验。 1.7.2013 学习了技术和操作,我们再来看看语音合成技术在现实生活中的应用。它已经融入了我们生活的方方面面,极大地便利了我们的生活。 比如大家非常熟悉的车载导航和智能座舱,它能帮助我们解放双手,让驾驶更安全;还有电商、金融等领域常见的智能客服,可以做到7x24小时在线,随时解答我们的问题。此外,我们常用的听书软件和地图APP的语音播报,背后也都有语音合成技术的支持。 可以说,语音合成技术让我们的生活变得更加高效、便捷,充满了温度。 ‹#› 语音合成的应用(二):让信息触手可及 CASE STUDY · 教育与公共服务 教育学习:打破知识获取的壁垒 🎧 有声教材:将纸质课本转换为音频,帮助学生随时随地利用碎片时间复习和预习。 🗣️ 语言学习:提供标准的多语种发音示范,解决师资发音不标准或口语练习场景匮乏的问题。 🔍 视障辅助:通过“听”的方式获取书本知识,为视障或阅读障碍群体提供平等的受教育机会。 公共服务:提升城市运行效率与温度 📢 应急广播:突发灾害或紧急事件发生时,快速将文字预警转化为语音,通过广播系统触达民众。 ✈️ 交通枢纽:在机场、火车站实时播报航班延误、列车到站等动态信息,引导旅客有序出行。 🏥 智能叫号:在银行、医院等机构,自动生成并播报排队号码,减少人工成本,缓解用户等待焦虑。 1.7.2013 在教育和公共服务领域,语音合成技术同样发挥着重要作用。它可以制作有声教材,帮助视障学生学习,还可以用于应急广播、交通枢纽信息播报等,让信息真正做到触手可及。 ‹#› 语音合成的应用(三):创造无限可能 AI 虚拟主播 新闻播报、天气解说不再需要真人主播,AI 技术支持 7x24 小时不间断工作,稳定输出高质量的音频与视频内容。 虚拟偶像 / 数字人 为虚拟角色赋予独特的声音,使其更加鲜活、富有个性。这项技术深度融合了语音合成(TTS)与声音克隆(Voice Clone)能力。 个性化语音助手 打破千篇一律的机器音。未来,你的智能助手可以定制成你喜爱的明星声线,甚至复刻你自己的声音,让交互更具温度。 1.7.2013 在前沿领域,语音合成技术更是创造了无限可能。比如我们现在看到的AI虚拟主播和虚拟偶像,它们的声音就是通过这项技术实现的。未来,我们甚至可以拥有个性化的语音助手,让它用我们喜欢的声音和我们对话。 ‹#› 技术的温度:语音合成的社会价值 💡 引导思考 语音合成技术给哪些特殊群体带来了便利?它在促进社会公平与文化传承方面,又承载了哪些不可替代的重要意义? 信息无障碍 为视障人士和阅读障碍者打破了信息壁垒,让他们能平等、便捷地获取知识与信息。 信息普惠 帮助不识字或文化程度较低的群体跨越文字门槛,轻松“听”懂世界,享受数字时代的红利。 文化传播 将经典书籍与文学作品转化为声音媒介,打破时空限制,极大地扩展了优秀文化的覆盖面与影响力。 “ 一项好的技术,不仅要功能强大,更要充满人文关怀,服务于社会,造福于人类 ” 1.7.2013 技术不仅要强大,更要有温度。语音合成技术最大的社会价值之一,就是实现了信息无障碍。它为视障人士和阅读障碍者打开了一扇窗,让他们能够平等地获取信息和知识。这体现了科技的人文关怀。 ‹#› 前沿技术揭秘 虚拟人的声音是如何炼成的? 核心技术引擎 ● 语音合成 (TTS):构建声音生成的基石,赋予虚拟人“开口说话”的基础能力,是所有声音交互的起点。 ● 声音克隆 (Voice Clone):实现个性化的关键技术,通过少量样本即可精准复刻特定人物的独特音色、语速与语气特征。 声音塑造流程 1. 通用发声:基于通用TTS模型,生成无个性特征的“基础声库”。 2. 专属声线:叠加声音克隆技术,为虚拟人赋予专属音色,打造独一无二的身份标识。 3. 情感赋能:通过算法参数调整,模拟喜怒哀乐等情感语气,让声音更具温度与表现力。 1.7.2013 那么,虚拟人的声音是如何炼成的呢?它主要依赖两项核心技术:基础的语音合成(TTS)和实现个性化的声音克隆。通过声音克隆,AI可以学习并复刻出特定人物的音色和语气,从而为虚拟人赋予独一无二的声音。 ‹#› 技术的另一面 警惕!被滥用的“好声音” 思考:既然AI可以模仿任何人的声音,那么如果有人利用这项强大的技术来做坏事,会发生什么? 诈骗与勒索 骗子模仿你的声音给家人打电话,谎称出车祸或被绑架,骗取巨额赎金。 舆论操纵与侵权 伪造名人或公众人物的声音,散布虚假信息,恶意营销或制造社会恐慌。 司法与伦理困境 利用合成的虚假语音作为证据,干扰司法公正,甚至制造无法辨别的“冤假错案”。 语音合成技术是一把双刃剑,在带来便利的同时,也带来了新的安全隐患和伦理挑战。 1.7.2013 然而,技术是一把双刃剑。当AI可以模仿任何人的声音时,也带来了新的安全隐患。比如,骗子可能会利用这项技术模仿你的声音去欺骗家人,或者模仿名人发布虚假信息。这些都提醒我们,必须警惕技术被滥用的风险。 ‹#› 真实案例警示(一) AI“孙子”骗哭奶奶:一场声音的骗局 案情回顾 • 湖北黄石的丁婆婆接到“孙子”的电话,电话里传来与孙子一模一样的声音,带着哭腔谎称打架伤人急需用钱。 • 老人心急如焚,未及细想,立刻凑了2万元现金交给了骗子。 • 直到晚上真孙子平安回家,老人才发现自己被骗了。 技术揭秘 骗子并非神通广大,而是利用了高科技手段实施诈骗: 1. 通过非法渠道获取了老人孙子的日常语音片段。 2. 利用AI语音克隆技术合成了逼真的求救语音。 3. 利用老年人对孙辈的关爱和焦虑心理,降低警惕性。 1.7.2013 这并不是危言耸听,真实的案例已经发生。比如这个“AI孙子骗哭奶奶”的案例,骗子就是利用AI语音克隆技术,模仿孙子的声音实施诈骗,最终让老人蒙受了财产损失。这给我们敲响了警钟,在享受AI技术带来便利的同时,也要时刻警惕它被不法分子利用。 ‹#› 真实案例警示(二) 案例警示:AI“CEO”骗走巨款 案情回顾 • 伦敦一家银行的财务主管接到“公司CFO”的紧急电话,对方声音不仅与真人一模一样,连习惯性的咳嗽声都模仿得惟妙惟肖。 • 骗子以项目紧急为由,要求财务主管立刻将一笔230万欧元的款项转到一个新的“供应商”账户。 • 财务主管最终对声音深信不疑,在未按流程核实的情况下执行了转账,导致公司瞬间蒙受巨额财产损失。 技术揭秘 攻击者并没有什么“超能力”,而是利用了当前已经非常成熟的AI 声纹克隆技术。 他们从互联网上收集并分析了该公司CFO在公开场合的演讲、采访视频,利用AI算法对其声纹特征进行了建模和复刻。 最后,结合伪基站伪造来电显示号码等传统电信诈骗手段,对财务人员实施了“精准打击”。 1.7.2013 类似的案例在国外也发生过。骗子通过分析高管的公开视频,克隆了他的声音,甚至模仿了他的口头禅和咳嗽声,成功骗取了巨额款项。这些案例都说明,AI语音诈骗的危害非常巨大。 ‹#› 如何防范与规范使用 如何守住我们的“声音防线”? 给个人的建议:增强自我保护意识 •保护个人声纹:切勿在来源不明、不可信的App或网站上随意录入或暴露自己的声音。 •提高警惕性:收到涉及金钱、转账的紧急陌生来电,务必通过视频、当面等其他可靠渠道二次确认。 •不轻信单一信息:遇到突发情况保持冷静,多问细节核实身份,避免冲动决策。 给社会的思考:共建全维防御体系 •技术开发者:探索声纹“数字水印”技术,为AI生成内容添加识别标记,从源头防范滥用。 •法律法规与平台:完善AI相关立法,严厉打击AI诈骗行为;平台加强内容审核,落实主体责任。 让我们共同努力,做负责任的技术使用者 —— 让技术“向善”,而不是为恶。 1.7.2013 面对这些风险,我们应该如何守住自己的“声音防线”呢?作为个人,我们要保护好自己的声纹信息,提高警惕,对涉及金钱的电话务必二次确认。同时,社会也需要从技术、法律和平台等多个层面进行规范,让技术真正向善。 ‹#› 本课知识回顾 核心概念 ▌ 语音合成技术 (TTS) 将文本转换为语音的人工智能技术,是机器发出声音的基础。 ▌ 与语音识别的关系 语音识别负责“听”懂用户,语音合成负责“说”给用户听,两者共同构成了智能语音交互闭环。 工作流程 (四步法) 01. 文本分析:理解语义,“看懂”输入内容。 02. 分词处理:确定停顿位置,实现正确断句。 03. 韵律处理:调整语速语调,注入情感色彩(核心难点)。 04. 语音生成:输出波形,最终“发出声音”。 技术发展历程 ▶ 机械时代 早期的留声机、八音盒,声音僵硬、单一。 ▶ 电子时代 拼接录音片段,成本高昂,缺乏灵活性。 ▶ AI 智能时代 基于深度学习的端到端合成,声音自然、流畅,接近真人水平。 1.7.2013 好了,一节课的时间很快就过去了。让我们来回顾一下今天学习的核心知识点。我们理解了语音合成技术的定义,掌握了它的四步工作流程,了解了它的发展历程,还探讨了它的广泛应用和潜在风险。希望大家课后能多加留意身边的语音助手,感受技术的进步。 ‹#› 素养升华 技术向善,从我做起 回顾与总结 ● 我们学习了语音合成技术的原理和应用,亲身感受到了AI技术的无穷魅力与创造力。 ● 我们也清醒地看到,若缺乏监管和约束,这类技术一旦被滥用,可能会对个人、社会乃至行业带来不可估量的风险与危害。 核心思想 ▌ 使用者的善恶决定技术走向 技术本身是中性的。我们应善用所学,用AI创造对他人有益、积极向上的内容。 ▌ 树立正确的技术伦理观 坚决维护和尊重他人的声音权,绝不滥用技术进行欺诈、造谣或恶意模仿。 ▌ 做负责任的数字公民 享受技术便利的同时,时刻保持警惕,共同维护健康、可信的数字网络空间。 1.7.2013 通过这节课的学习,我希望大家能明白一个道理:技术本身是中性的,但使用者有善恶之分。我们应该利用所学的知识去创造有益的作品,树立正确的技术伦理观,做一个负责任的数字公民,让技术真正服务于人类,造福于社会。 ‹#› 下节课预告 人工智能是如何“看见”这个世界的呢? 下节课,我们将一起探索《图像识别技术》的奥秘! 1.7.2013 今天我们学习了人工智能“能说”的技术。那么,人工智能是如何“看见”这个世界的呢?下节课,我们将一起探索《图像识别技术》的奥秘!感谢大家的聆听,下课! ‹#› $

资源预览图

第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息技术八年级下册
1
第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息技术八年级下册
2
第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息技术八年级下册
3
第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息技术八年级下册
4
第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息技术八年级下册
5
第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息技术八年级下册
6
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。