第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息科技八年级下册

2026-05-15

| 29页

| 65人阅读

| 0人下载

普通

资源信息

学段	初中
学科	信息科技
教材版本	初中信息科技浙教版八年级下册
年级	八年级
章节	-
类型	课件
知识点	-
使用场景	同步教学-新授课
学年	2026-2027
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	10.69 MB
发布时间	2026-05-15
更新时间	2026-05-15
作者	黄ぅ块块
品牌系列	-
审核时间	2026-05-15
下载链接	https://m.zxxk.com/soft/57887080.html
价格	0.50储值（1储值=1元）
来源	学科网

内容正文：

《语音合成技术》教学课件浙教版初中信息技术·八年级下册情境导入一声音的对比听一听，有什么不同？真人朗读机器朗读 “床前明月光，硬是地上需，常头望明月，低 “床前期月光，疑是地上需。样头望明月，匠头思放乡。“ 头思放乡。“ 这是一段由真人朗读的古诗，语调自然，充满这是一段由计算机合成的语音，仔细听，它和情感，有明显的停顿和重音，听起来非常亲切真人朗读有什么不一样？是不是感觉有些生硬自然、平淡，峡少了一些情感起伏和文学韵味？思考一：第二段机器朗读的音频所起来感觉如何？它的声音等口思考二：你更喜欢哪一个版本？为什么？如果让机器像人一是怎么产生的？样说话，需要具备什么能力？情境导入一生活中的声音这些声音，你熟悉吗？车载导航 “前方500米右转，进入XX路。公交报站“下一站，人民广场，请准备下车。” 听书软件“欢迎来到0听书，今天为您智能音箱“好的，已为您播放音乐。" 播讲的是（三体》第一部。” 思考与讨论：这些场景中的声音都是真人录制的吗？如果不是，它们是怎么来的？你还在哪里听过类似的机器生成的语音？什么是语音合成技术？ I核心定义语音合成技术(Text-to-Speech,,TTS),也叫“文语转换技术”，是一种利用计算机模拟人类发音，将文本信息转换成自然流畅语音的人工智能技术。简单来说，就是让机器能说会道。【核心要素输入Input 处理Process 输出Output 任意格式的声学模型与合成语音输入。过程个输出纯文本信息语言学模型分析波形音频复杂的文字，数字可听见的标点符号等算法分析处自然语音音理须语音合成的工作流程（总览）机器是如何“朗读”一篇文章的？ 01看稿子 02断句子 03带感情 04发声音 (文本分析) (分词处理) (韵律处理) (语音生成) 就像福音员看稿子一样，先看赋予语音生命力，确定哪里该最后一步，运用声学模型，将理解句子的结构和含义，准确清楚每一个字、标点符号和数重读、哪里该轻读，以及使用前面处理好的文本转化为声波判断词语之间的界限，以及在字，为接下来的发音做好准备朗读时应该在哪里停倾升调还是降调，让朗读更自然信号，最终输出清晰流畅的声音。流程详解①一文本分析第一步：文本分析（看懂稿子） 01识别内容 02格式转换 03处理缩写对输入的原始文本进行“标准化”处将非自然语音内容转化为标准读音：识别并还原常见的英文缩写，避免机理，精准区分并识别中文、英文、数 ·数字“123”→“一百二十三” 器读出无意义的字母：字、标点符号及特殊符号（如、#等 ·年份“2026”→“二零二六年” ·称谓“.”一“先生” ),为后续处理打好基础确保语音输出的自然与准确。 ·省略“etc.”一“等等” 通俗类比：就像我们朗读前，先把文章里的数字、英文缩写、生僻符号都认清楚并在脑海里翻译成日常读音，确保开口朗读时不会磕磕绊绊、读错意思。流程详解②一分词处理第二步：分词处理 —一让机器读懂语言的第一步核心任务为什么重要？这是决定语音合成是否流畅、语义理解是否正将连续的、无间隔的文本流，按照中文的语法确的关键前提。如果断句错误，不仅听起来非规则和语义逻辑，精准切分成一个个独立的词常别扭，甚至会导致意思完全改变，产生歧义语或短语，为后续处理打好基础。断句对比通俗类比这就像我们平时朗读文章时，会根据词语的含义在正确：“我们/应该/尊重/每一个人” 错误：“我们应/该尊重/每一个人”（听虑不同的位置做短暂的“停顿”一样，机器也需要学米很不自然) 会这种“节奏越”，而不是一口气把所有字连在起读流程详解③-韵律处理（注入灵魂）第三步：韵律处理（让声音有感情）核心任务：根据文本内容和情感，确定语音的节奏、重音、停顿和语调。这是让机器说话“像人”的核心难点。类比：这就像一位优秀的演员，根据刷本表达不同的情鳍。 ● 停顿重音音调语速情感标点符号处的停倾，句子关键词的强调，如“我没疑问句用升调，陈述句用微动时请速快，悲伤时语高兴、悲伤、严肃、惊间的间隔，说他偷了我的钱”，降调速慢讶等情绪，难点突破一韵律的魔力对比体验：韵律如何决定语音的“灵魂” 场景一：严肃提醒·“请不要随地吐场景二：欢快描述·“春天来了，花痰！” 儿开了！” 平淡陈述：“请·不·要·随·地·吐·痰平淡陈述：“春天来了，花儿开了，”（平铺直叙 (一字一顿，毫无感情，像读课文) 毫无生机) 严肃强调：“请不要随地吐痰！”（重音在“不要”，降调喜悦欢快：“春天来了“，花儿开了“！”（明显的升调起伏结尾，语气坚定有力) 语速轻快，充满画面感) 核心洞察：很多时候我们觉得机器声音“生硬、冰冷、像机器人”，根本原因往往不是发音不准，而是韵律模型不够智能。优秀的韵律处理能赋子语音情感与生命力，实现“声情并茂”的表达流程详解④一语音生成第四步：语音生成（发出声音）核心任务技术揭秘趣味类比 ·语音库：一个存储了大量真人发音根据前面分析好的文本、断句和韵律片段的数据库，就像一个巨大的声音这就像我们说话时，大脑发出指令，信息，从“语音库”中取出最基本的素材库。通过精密控制声带的振动、舌头的卷语音单元（比如一个音素或一个音节 ),然后将它们无链地拼接、合成为 ·拼接与合成：计算机像搭积木一样曲和嘴唇的开合，来特准地发出一个个清晰的音节，再连成流畅的句子最终的语音波形。 ,把这些小的声音片段组合起来，形成完整的句子技术发展之路（一）语音合成技术的进化史·从机械装置到智能算法 01 代表装置核心原理 1779年克拉钦斯坦的原始语音装置：通过齿轮、风箱等精密机械结构，物理 18世纪末冯·凯佩伦设计的“口语机性地模仿人的酸呢、声道和嘴巴等发音馨官的振动与形状，机械时代 18世纪-1930s 主要特点历史评价体积庞大，结构复杂，操作门槛校高这一时期的尝试被称为“史前探素” “语音合成技术的 ·发音极度有限，仅能发出简单元音和这些装置更像是精巧的科学玩具，主要史前规索与启蒙” 单词用于展示发音的物理原理，面非真正的 ·无实际应用价值，实用性极低信息传递工具技术发展之路（二）语音合成技术的进化史第二阶段：电子时代(1930s-2010s) 代表：1939年贝尔实验室原理：以数学公式模拟人声 Voder电子合成器：早期电话的“参数合成”，或拼接音节语音报时、电子词典发音的“拼接合成”。特点：声音有明显的“机器 ★ 评价：被称为“机器人的独腔”，语调平坦无感情，字与白”。虽然在语义上能听懂，字之间有明显的拼接痕迹。但在听觉体验上“不好听” 技术发展之路（三）语音合成技术的进化史·AI时代(2016年-至今) 里程碑核心原理技术特点行业评价被业内称为“自然人的诞 2016年，谷歌DeepMind团队采用基于深度神经网路的端到生成语音流畅自然，听感上已生”，实现了语音合成从发布了革命性的WaveNet模型端模型架构，摒弃了传统的拼极难与真人区分。支持灵活模早期“能发声”，到中期标志若语音合成技术正式迈接与参数合成，直接从文本生拟不同的普色、情感色彩与地入A[时代，为后来的技术类定成最原始的声音波形，从底层域口音，极大丰富了语音的表 “像真人”，再到如今“ 了基石。重构了声音生成逻辑。现力佰情感、有个性”的质的飞跃。实践任务一基础合成动手试一试：让电脑为你读诗任务目标打开平台 2 输入文本刘览器授索进入“文本转在输入框录入古诗《望语音”功能页岳》全文熟悉并使用主流在线语音合成平台，完成从“输入古诗文本”到“生成语音音颍”的基础文本转语音(TTS)全流程操作。 3 选择参数合成并试听尝试调整不同的音色、语点击生成，即时聆所A 速与音调朗读效果推荐工具 ·百度AI开放平台EasyDL) 保存成果 ·讯飞听见/讯飞开放平台将调整至满意的语音效果下载并保存为本地音频文件实践任务一参数调整探索参数：让声音更动听古诗《望岳》日常通知场景儿童故事片段配置：温柔女声·中速·中调配置：阳光男声·稍快·中调配置：可爱童声·慢速·音调稍高效果：语音比较自然流畅，但缺少了诗歌应效果：吐字清晰明了，节奏干脆利落，非常效果：声音活泼生动，充满童趣感，非常能有的磅薄气势和抑扬顿垫，适合学校或公司的日常通知杨景。吸引小朋友的注意力建议：尝试适当降低语速，提高音调结论：当前参数表现优秀，无需额外调建议：可以尝试增加语音的情感起伏，以突出韵律美。整。，让故事更有画面感。思考时刻：为什么朗读古诗时，我们通常会放慢语速、加重音调？这是因为古诗词本身具有独特的韵律美和节奏感，需要适当的语速停顿来给听众留下想象空间，并通过音调的起伏变化来传达诗词中的情感和意境，使其更具感染力：拓展实践一创意创作创意挑战：制作你的专属语音作品任务一：制作“校园广播通知” 任务二：制作“有声读书笔记” 场景：假设你是校园广播员，需要录制一则正式的通场景：为你最近阅读的一本书，录制一段个性化的有知，向全校师生传递消息。声推荐，分享给你的同学或朋友。核心要求：通知本周五下午将举行春季运动会，诗各核心要求：清晰介绍书名与作者，并分享你最喜欢的班做好准备。音色需正式、清晰，语速适中，情感上要传递一个片段或个人感悟。音色保持个人风格，语速与情感基调出对运动会的鼓励与期待。可根据分享内容灵活调整。实践分享与评价 # 01小组分享 02同伴评价 03共同优化 ·清晰度：是否字字清晰，无模糊或断在小组内播放你的作品，向大家介音？基于分享和评价，互相提出针对性绍你创作时的整体思路，以及在音 ·自然度：语气语调是否流畅自然，不的改进建议。例如：“这部分的语色、语调、语速等关键参数上的考生硬？速可以放缓一点”、“这里可以加量与选择。 ·情感匹配度：语音的情绪与文本内容重语气来突出重点” 契合吗？活动目标通过小组内的交流、反馈与协作，积累实战经验，从而共同提升语音合成的应用技巧，并激发A【创作的更多灵感与创新能力案例分析一生活服务语音合成的应用（一）：融入生活的方方面面车载导航与智能座舱智能客服解放双手，让驾驶更安全，通过智能语提供7x24小时不闻断在线服务，快速识音交互，无需手动操作即可查询路线、别用户意图，用自然流畅的声音解答常控制车内设备。见业务问题。听书软件/有声读物地图APP语音播报让我们可以在开车、运动、做家务等双提供清晰、及时、情感化的路线指引，眼被占用的场景下，也能享受“阅读” 帮助用户在陌生路段也能从容驾驶，大的乐趣，高效利用碎片时间。幅提升出行体验。语音合成的应用（二）：让信息触手可及 CASE STUDY·教育与公共服务 B5-BT0 Arrival A1-A21 FLIGHT CONNECTION INFORMATION 教育学习：打破知识获取的壁垒典公共服务：提升城市运行效率与温度有声教材：将纸质课本转换为音频，相助学生随时随地利应急广播：突发灾害或紧急事件发生时，快速将文字预警用碎片时间复习和预习。转化为语音，通过广播系统触达民众。语言学习：提供标准的多语种发音示范，解决师资发音 +口交通枢纽：在机场、火车站实时播报航班延误、列车到站不标准或口语练习场景匮乏的问题。等动态信息，引导旅客有序出行视障辅助：通过“听”的方式获取书本知识，为视障或阅智能叫号：在银行、医院等机构，自动生成并播报排队号读障碍群体提供平等的受教有机会码，减少人工成本，缓解用户等待焦虑语音合成的应用（三）：创造无限可能 3.8预感阁小 3.98 AI虚拟主播虚拟偶像/数字人个性化语音助手为虚拟角色赋予独特的声音，使其更加打破千篇一律的机器音。未米，你的智新闻播报、天气解说不再需要真人主播鲜活、高有个性。这项技术深度融合了 ,A1技术支持7x24小时不间断工作，能助手可以定制成你喜爱的明星声线，语音合成(TTS)与声音克隆(Yoice 甚至复刻你自己的声音，让交互更具温稳定输出高质量的音频与视频内容。 C1one)能力，度技术的温度：语音合成的社会价值引导思考语音合成技术给哪些特殊群体带来了便利？它在促进社会公平与文化传承方面，又承载了哪些不可替代的重要意义？ & 信息无障碍信息普惠文化传播为视障人士和阅读障碍者打破了信帮助不识字或文化程度较低的群体将经典书籍与文学作品转化为声音息壁垒，让他们能平等、便捷地获跨越文字门橙，轻松“听”懂世界煤介，打破时空限制，极大地扩展取知识与信息， ,享受数字时代的红利。了优秀文化的覆盖面与形响力： “一项好的技术，不仅要功能强大，更要充满人文关怀，服务于社会，造福于人类” 前沿技术揭秘虚拟人的声音是如何炼成的？核心技术引擎白声音塑造流程 ●语音合成(TTS)：构建声音生成的基石，赋子虚拟人“开口 1.通用发声：基于通用TS模型，生成无个性特征的“基础声库”：说话”的基础能力，是所有声音交互的起点。 2.专属声线：叠加声音克隆技术，为虚拟人狱予专属音色，打造独一无二的身份标识。 ●声音克隆(Voice Clone):实现个性化的关键技术，通过 3.情感赋能：通过算法参数调整，模叔喜怒哀乐等情感语气，让声少量样本即可精准复刻特定人物的独特音色、语速与语气特征。音更具温度与表现力蔬用发声香音合成巧文本输入声后技木远辉 ,茶/语气定制这权人口第司言统/视输出声查克隆olce Clone 技术的另一面警惕！被滥用的“好声音” 思考：既然I可以模仿任何人的声音，那么如果有人利用这项强大的技术来做坏事，会发生什么？诈骗与勒索奥论操纵与侵权司法与伦理困境骗子模仿你的声音给家人打电伪造名人或公众人物的声音，利用合成的虚假语音作为证据话，谎称出车祸或被绑架，骗散布虚假信息，恶意营销或制 ,干扰司法公正，甚至制造无取巨领联金。造社会恐慌。法辨别的“冤假铅案”。语音合成技术是一把双刃剑，在带来便利的同时，也带来了新的安全隐患和伦理挑战。真实案例警示（一） A虹“孙子”骗哭奶奶：一场声音的骗局案情回顾 ▣ 技术揭秘 ·湖北黄石的丁婆婆接到“孙子”的电话，电话里传来与骗子并非神通广大，而是利用了高科技手段实施诈骗：孙子一模一样的声音，带着哭腔谎称打架伤人急需用钱。 1.通过非法渠道获取了老人孙子的日常语音片段。 ·老人心急如焚，未及细想，立刻凑了2万元现金交给了骗 2,利用AI语音克隆技术合成了逼真的求救语音。子 ·直到晚上真孙子平安回家，老人才发现自己被骗了 3.利用老年人对孙辈的关爱和焦虑心理，降低警惕性真实案例警示（二）案例警示：AI“CEO”骗走巨款案情回顾技术揭秘 ·伦敦一家银行的财务主管接到“公司C℉O”的紧急电话，攻击者并没有什么“超能力”，而是利用了当前己经非常对方声音不仅与真人一模一样，连习惯性的咳嗽声都模仿成熟的AI声纹克隆技术得惟妙惟肖。他们从互联网上收集并分析了该公司CF0在公开场合的演讲 ·骗子以项目紧急为由，要求财务主管立刻将一笔230万欧、采访视频，利用AI算法对其声纹特征进行了建模和复刻元的款项转到一个新的“供应商”账户 ·财务主管最终对声音深信不疑，在未按流程核实的情况最后，结合伪基站伪造来电显示号码等传统电信诈骗手段下执行了转账，导致公司瞬间蒙受巨额财产损失。对财务人员实施了“精准打击”。如何防范与规范使用如何守住我们的“声音防线”？ 8给个人的建议：增强自我保护意识 ·保护个人声纹：切勿在米源不明、不可信的AP或网站上随意录入或暴露自己的声钓科音。 ·提高警惕性：收到涉及金钱、转账的紧急陌生米电，务必通过视频、当面等其他可靠渠道二次确认。 :不轻信单一信息：遇到突发情况保持冷静，多问细节核实身份，避免冲动决策。公共互联网反网络钓鱼工作纠 ④给社会的思考：共建全维防御体系 ·技术开发者：探索声纹“数字水印”技术，为A1生成内容添加识别标记，从源头防范滥用。 ·法律法规与平台：完善A1相关立法，严厉打击A1诈骗行为：平台加强内容审核，落实主体责任。让我们共同努力，做负责任的技术使用者让技术“向善”，而不是为恶。本课知识回顾核心概念工作流程 (四步法) 技术发展历程 ·机械时代 Ⅱ语音合成技术(TTS) 01.文本分析：理解语义，“看懂早期的留声机，八音盒，声音概硬，单将文本转换为语音的人工智能技术，输入内容是机器发出声音的基础。 02.分词处理：确定停顿位置，实现正确断句电子时代 ■与语音识别的关系 03.韵律处理：调整语速语调，注入拼接录音片段，成本高昂，缺乏灵活性语音识别负责“听”懂用户，语音合情感色彩核心难点)。成负责“说”给用户听，两者共同构 04.语音生成：输出波形，最终“发 ·AI智能时代成了智能语音交互闭环，出声音”。基于深度学习的端到端合成，声音自然流畅，接近真人水平素养升华技术向善，从我做起回顾与总结核心思想使用者的普善恶决定技术走向技术本身是中性的。我们应善用所学，用I创造对他人有益、 ●我们学习了语音合成技术的原理和应用，亲身感受到了积极向上的内容。 AI技术的无穷魅力与创造力。。树立正确的技术伦理观 ●我们也清醒地看到，若缺乏监管和约東，这类技术一旦坚决维护和尊重他人的声音权，绝不盖用技术进行欺诈、造谣或恶意模仿。被滥用，可能会对个人、社会乃至行业带来不可估量的风险与危害。』做负责任的数字公民享受技术便利的同时，时刻保特警惕，共同维护健康、可倍的数字网络空间下节课预告人工智能是如何“看见”这个世界的呢？下节课，我们将一起探索《图像识别技术》的奥秘！

第6课《语音合成技术》教学课件-2025-2026学年浙教版初中信息科技八年级下册

资源信息

内容正文：

资源预览图