内容正文:
《语音合成技术》教学课件
浙教版初中信息技术·八年级下册
情境导入一声音的对比
听一听,有什么不同?
真人朗读
机器朗读
“床前明月光,硬是地上需,常头望明月,低
“床前期月光,疑是地上需。样头望明月,匠
头思放乡。“
头思放乡。“
这是一段由真人朗读的古诗,语调自然,充满
这是一段由计算机合成的语音,仔细听,它和
情感,有明显的停顿和重音,听起来非常亲切
真人朗读有什么不一样?是不是感觉有些生硬
自然
、平淡,峡少了一些情感起伏和文学韵味?
思考一:第二段机器朗读的音频所起来感觉如何?它的声音
等口思考二:你更喜欢哪一个版本?为什么?如果让机器像人一
是怎么产生的?
样说话,需要具备什么能力?
情境导入一生活中的声音
这些声音,你熟悉吗?
车载导航
“前方500米右转,进入XX路。
公交报站“下一站,人民广场,请准备
下车。”
听书软件“欢迎来到0听书,今天为您
智能音箱“好的,已为您播放音乐。"
播讲的是(三体》第一部。”
思考与讨论:这些场景中的声音都是真人录制的吗?如果不是,它们是怎么来的?你还在哪里听过类似的机器生成的语音?
什么是语音合成技术?
I核心定义
语音合成技术(Text-to-Speech,,TTS),也叫“文语转换技
术”,是一种利用计算机模拟人类发音,将文本信息转换成
自然流畅语音的人工智能技术。
简单来说,就是让机器能说会道。
【核心要素
输入Input
处理Process
输出Output
任意格式的
声学模型与
合成语音
输入
。过程
个输出
纯文本信息
语言学模型分析
波形音频
复杂的
文字,数字
可听见的
标点符号等
算法分析处
自然语音音
理
须
语音合成的工作流程(总览)
机器是如何“朗读”一篇文章的?
01看稿子
02断句子
03带感情
04发声音
(文本分析)
(分词处理)
(韵律处理)
(语音生成)
就像福音员看稿子一样,先看
赋予语音生命力,确定哪里该
最后一步,运用声学模型,将
理解句子的结构和含义,准确
清楚每一个字、标点符号和数
重读、哪里该轻读,以及使用
前面处理好的文本转化为声波
判断词语之间的界限,以及在
字,为接下来的发音做好准备
朗读时应该在哪里停倾
升调还是降调,让朗读更自然
信号,最终输出清晰流畅的声
音。
流程详解①一文本分析
第一步:文本分析(看懂稿子)
01识别内容
02格式转换
03处理缩写
对输入的原始文本进行“标准化”处
将非自然语音内容转化为标准读音:
识别并还原常见的英文缩写,避免机
理,精准区分并识别中文、英文、数
·数字“123”→“一百二十三”
器读出无意义的字母:
字、标点符号及特殊符号(如、#等
·年份“2026”→“二零二六年”
·称谓“.”一“先生”
),为后续处理打好基础
确保语音输出的自然与准确。
·省略“etc.”一“等等”
通俗类比:就像我们朗读前,先把文章里的数字、英文缩写、生僻符号都认清楚并在脑海里翻译成日常读音,确保开口朗
读时不会磕磕绊绊、读错意思。
流程详解②一分词处理
第二步:分词处理
—一让机器读懂语言的第一步
核心任务
为什么重要?
这是决定语音合成是否流畅、语义理解是否正
将连续的、无间隔的文本流,按照中文的语法
确的关键前提。如果断句错误,不仅听起来非
规则和语义逻辑,精准切分成一个个独立的词
常别扭,甚至会导致意思完全改变,产生歧义
语或短语,为后续处理打好基础。
断句对比
通俗类比
这就像我们平时朗读文章时,会根据词语的含义在
正确:“我们/应该/尊重/每一个人”
错误:“我们应/该尊重/每一个人”(听虑
不同的位置做短暂的“停顿”一样,机器也需要学
米很不自然)
会这种“节奏越”,而不是一口气把所有字连在
起读
流程详解③-韵律处理(注入灵魂)
第三步:韵律处理(让声音有感情)
核心任务:根据文本内容和情感,确定语音的节奏、重音、停顿和语调。这是让机器说话“像人”的核心难点。
类比:这就像一位优秀的演员,根据刷本表达不同的情鳍。
●
停顿
重音
音调
语速
情感
标点符号处的停倾,句子
关键词的强调,如“我没
疑问句用升调,陈述句用
微动时请速快,悲伤时语高兴、悲伤、严肃、惊
间的间隔,
说他偷了我的钱”,
降调
速慢
讶等情绪,
难点突破一韵律的魔力
对比体验:韵律如何决定语音的“灵魂”
场景一:严肃提醒·“请不要随地吐
场景二:欢快描述·“春天来了,花
痰!”
儿开了!”
平淡陈述:“请·不·要·随·地·吐·痰
平淡陈述:“春天来了,花儿开了,”(平铺直叙
(一字一顿,毫无感情,像读课文)
毫无生机)
严肃强调:“请不要随地吐痰!”(重音在“不要”,降调
喜悦欢快:“春天来了“,花儿开了“!”(明显的升调起伏
结尾,语气坚定有力)
语速轻快,充满画面感)
核心洞察:很多时候我们觉得机器声音“生硬、冰冷、像机器人”,根本原因往往不是发音不准,而是韵律
模型不够智能。优秀的韵律处理能赋子语音情感与生命力,实现“声情并茂”的表达
流程详解④一语音生成
第四步:语音生成(发出声音)
核心任务
技术揭秘
趣味类比
·语音库:一个存储了大量真人发音
根据前面分析好的文本、断句和韵律
片段的数据库,就像一个巨大的声音
这就像我们说话时,大脑发出指令,
信息,从“语音库”中取出最基本的
素材库。
通过精密控制声带的振动、舌头的卷
语音单元(比如一个音素或一个音节
),然后将它们无链地拼接、合成为
·拼接与合成:计算机像搭积木一样
曲和嘴唇的开合,来特准地发出一个
个清晰的音节,再连成流畅的句子
最终的语音波形。
,把这些小的声音片段组合起来,形
成完整的句子
技术发展之路(一)
语音合成技术的进化史·从机械装置到智能算法
01
代表装置
核心原理
1779年克拉钦斯坦的原始语音装置:
通过齿轮、风箱等精密机械结构,物理
18世纪末冯·凯佩伦设计的“口语机
性地模仿人的酸呢、声道和嘴巴等发音
馨官的振动与形状,
机械时代
18世纪-1930s
主要特点
历史评价
体积庞大,结构复杂,操作门槛校高
这一时期的尝试被称为“史前探素”
“语音合成技术的
·发音极度有限,仅能发出简单元音和
这些装置更像是精巧的科学玩具,主要
史前规索与启蒙”
单词
用于展示发音的物理原理,面非真正的
·无实际应用价值,实用性极低
信息传递工具
技术发展之路(二)
语音合成技术的进化史
第二阶段:电子时代(1930s-2010s)
代表:1939年贝尔实验室
原理:以数学公式模拟人声
Voder电子合成器:早期电话
的“参数合成”,或拼接音节
语音报时、电子词典发音
的“拼接合成”。
特点:声音有明显的“机器
★
评价:被称为“机器人的独
腔”,语调平坦无感情,字与
白”。虽然在语义上能听懂,
字之间有明显的拼接痕迹。
但在听觉体验上“不好听”
技术发展之路(三)
语音合成技术的进化史·AI时代(2016年-至今)
里程碑
核心原理
技术特点
行业评价
被业内称为“自然人的诞
2016年,谷歌DeepMind团队
采用基于深度神经网路的端到
生成语音流畅自然,听感上已
生”,实现了语音合成从
发布了革命性的WaveNet模型
端模型架构,摒弃了传统的拼
极难与真人区分。支持灵活模
早期“能发声”,到中期
标志若语音合成技术正式迈
接与参数合成,直接从文本生
拟不同的普色、情感色彩与地
入A[时代,为后来的技术类定
成最原始的声音波形,从底层
域口音,极大丰富了语音的表
“像真人”,再到如今“
了基石。
重构了声音生成逻辑。
现力
佰情感、有个性”的质的
飞跃。
实践任务一基础合成
动手试一试:让电脑为你读诗
任务目标
打开平台
2
输入文本
刘览器授索进入“文本转
在输入框录入古诗《望
语音”功能页
岳》全文
熟悉并使用主流在线语音合成平台,完成从“输入古诗文
本”到“生成语音音颍”的基础文本转语音(TTS)全流程
操作。
3
选择参数
合成并试听
尝试调整不同的音色、语
点击生成,即时聆所A
速与音调
朗读效果
推荐工具
·百度AI开放平台EasyDL)
保存成果
·讯飞听见/讯飞开放平台
将调整至满意的语音效果下载并保存为本地音频文件
实践任务一参数调整
探索参数:让声音更动听
古诗《望岳》
日常通知场景
儿童故事片段
配置:温柔女声·中速·中调
配置:阳光男声·稍快·中调
配置:可爱童声·慢速·音调稍高
效果:语音比较自然流畅,但缺少了诗歌应
效果:吐字清晰明了,节奏干脆利落,非常
效果:声音活泼生动,充满童趣感,非常能
有的磅薄气势和抑扬顿垫,
适合学校或公司的日常通知杨景。
吸引小朋友的注意力
建议:尝试适当降低语速,提高音调
结论:当前参数表现优秀,无需额外调
建议:可以尝试增加语音的情感起伏
,以突出韵律美。
整。
,
让故事更有画面感。
思考时刻:为什么朗读古诗时,我们通常会放慢语速、加重音调?
这是因为古诗词本身具有独特的韵律美和节奏感,需要适当的语速停顿来给听众留下想象空间,并通过音调的起伏变化来传达诗
词中的情感和意境,使其更具感染力:
拓展实践一创意创作
创意挑战:制作你的专属语音作品
任务一:制作“校园广播通知”
任务二:制作“有声读书笔记”
场景:假设你是校园广播员,需要录制一则正式的通
场景:为你最近阅读的一本书,录制一段个性化的有
知,向全校师生传递消息。
声推荐,分享给你的同学或朋友。
核心要求:通知本周五下午将举行春季运动会,诗各
核心要求:清晰介绍书名与作者,并分享你最喜欢的
班做好准备。音色需正式、清晰,语速适中,情感上要传递
一个片段或个人感悟。音色保持个人风格,语速与情感基调
出对运动会的鼓励与期待。
可根据分享内容灵活调整。
实践分享与评价
#
01小组分享
02同伴评价
03共同优化
·清晰度:是否字字清晰,无模糊或断
在小组内播放你的作品,向大家介
音?
基于分享和评价,互相提出针对性
绍你创作时的整体思路,以及在音
·自然度:语气语调是否流畅自然,不
的改进建议。例如:“这部分的语
色、语调、语速等关键参数上的考
生硬?
速可以放缓一点”、“这里可以加
量与选择。
·情感匹配度:语音的情绪与文本内容
重语气来突出重点”
契合吗?
活动目标
通过小组内的交流、反馈与协作,积累实战经验,从而共同提升语音合成的应用技巧,并激发A【创作的更多灵感与
创新能力
案例分析一生活服务
语音合成的应用(一):融入生活的方方面面
车载导航与智能座舱
智能客服
解放双手,让驾驶更安全,通过智能语
提供7x24小时不闻断在线服务,快速识
音交互,无需手动操作即可查询路线、
别用户意图,用自然流畅的声音解答常
控制车内设备。
见业务问题。
听书软件/有声读物
地图APP语音播报
让我们可以在开车、运动、做家务等双
提供清晰、及时、情感化的路线指引,
眼被占用的场景下,也能享受“阅读”
帮助用户在陌生路段也能从容驾驶,大
的乐趣,高效利用碎片时间。
幅提升出行体验。
语音合成的应用(二):让信息触手可及
CASE STUDY·教育与公共服务
B5-BT0
Arrival
A1-A21
FLIGHT CONNECTION INFORMATION
教育学习:打破知识获取的壁垒
典公共服务:提升城市运行效率与温度
有声教材:将纸质课本转换为音频,相助学生随时随地利
应急广播:突发灾害或紧急事件发生时,快速将文字预警
用碎片时间复习和预习。
转化为语音,通过广播系统触达民众。
语言学习:提供标准的多语种发音示范,解决师资发音
+口交通枢纽:在机场、火车站实时播报航班延误、列车到站
不标准或口语练习场景匮乏的问题。
等动态信息,引导旅客有序出行
视障辅助:通过“听”的方式获取书本知识,为视障或阅
智能叫号:在银行、医院等机构,自动生成并播报排队号
读障碍群体提供平等的受教有机会
码,减少人工成本,缓解用户等待焦虑
语音合成的应用(三):创造无限可能
3.8预
感阁
小
3.98
AI虚拟主播
虚拟偶像/数字人
个性化语音助手
为虚拟角色赋予独特的声音,使其更加
打破千篇一律的机器音。未米,你的智
新闻播报、天气解说不再需要真人主播
鲜活、高有个性。这项技术深度融合了
,A1技术支持7x24小时不间断工作,
能助手可以定制成你喜爱的明星声线,
语音合成(TTS)与声音克隆(Yoice
甚至复刻你自己的声音,让交互更具温
稳定输出高质量的音频与视频内容。
C1one)能力,
度
技术的温度:语音合成的社会价值
引导思考
语音合成技术给哪些特殊群体带来了便利?它在促进社会公
平与文化传承方面,又承载了哪些不可替代的重要意义?
&
信息无障碍
信息普惠
文化传播
为视障人士和阅读障碍者打破了信
帮助不识字或文化程度较低的群体
将经典书籍与文学作品转化为声音
息壁垒,让他们能平等、便捷地获
跨越文字门橙,轻松“听”懂世界
煤介,打破时空限制,极大地扩展
取知识与信息,
,享受数字时代的红利。
了优秀文化的覆盖面与形响力:
“一项好的技术,不仅要功能强大,更要充满人文关怀,服务于社会,造福于人类”
前沿技术揭秘
虚拟人的声音是如何炼成的?
核心技术引擎
白
声音塑造流程
●语音合成(TTS):构建声音生成的基石,赋子虚拟人“开口
1.通用发声:基于通用TS模型,生成无个性特征的“基础声库”:
说话”的基础能力,是所有声音交互的起点。
2.专属声线:叠加声音克隆技术,为虚拟人狱予专属音色,打造独
一无二的身份标识。
●声音克隆(Voice Clone):实现个性化的关键技术,通过
3.情感赋能:通过算法参数调整,模叔喜怒哀乐等情感语气,让声
少量样本即可精准复刻特定人物的独特音色、语速与语气特征。
音更具温度与表现力
蔬用发声
香音合成巧
文本输入
声后技木远辉
,茶/语气定制
这权人口第司
言统/视输出
声查克隆olce Clone
技术的另一面
警惕!被滥用的“好声音”
思考:既然I可以模仿任何人的声音,那么如果有人利用这项强大的技术来做坏事,会发生什么?
诈骗与勒索
奥论操纵与侵权
司法与伦理困境
骗子模仿你的声音给家人打电
伪造名人或公众人物的声音,
利用合成的虚假语音作为证据
话,谎称出车祸或被绑架,骗
散布虚假信息,恶意营销或制
,干扰司法公正,甚至制造无
取巨领联金。
造社会恐慌。
法辨别的“冤假铅案”。
语音合成技术是一把双刃剑,在带来便利的同时,也带来了新的安全隐患和伦理挑战。
真实案例警示(一)
A虹“孙子”骗哭奶奶:一场声音的骗局
案情回顾
▣
技术揭秘
·湖北黄石的丁婆婆接到“孙子”的电话,电话里传来与
骗子并非神通广大,而是利用了高科技手段实施诈骗:
孙子一模一样的声音,带着哭腔谎称打架伤人急需用钱。
1.通过非法渠道获取了老人孙子的日常语音片段。
·老人心急如焚,未及细想,立刻凑了2万元现金交给了骗
2,利用AI语音克隆技术合成了逼真的求救语音。
子
·直到晚上真孙子平安回家,老人才发现自己被骗了
3.利用老年人对孙辈的关爱和焦虑心理,降低警惕性
真实案例警示(二)
案例警示:AI“CEO”骗走巨款
案情回顾
技术揭秘
·伦敦一家银行的财务主管接到“公司C℉O”的紧急电话,
攻击者并没有什么“超能力”,而是利用了当前己经非常
对方声音不仅与真人一模一样,连习惯性的咳嗽声都模仿
成熟的AI声纹克隆技术
得惟妙惟肖。
他们从互联网上收集并分析了该公司CF0在公开场合的演讲
·骗子以项目紧急为由,要求财务主管立刻将一笔230万欧
、
采访视频,利用AI算法对其声纹特征进行了建模和复刻
元的款项转到一个新的“供应商”账户
·财务主管最终对声音深信不疑,在未按流程核实的情况
最后,结合伪基站伪造来电显示号码等传统电信诈骗手段
下执行了转账,导致公司瞬间蒙受巨额财产损失。
对财务人员实施了“精准打击”。
如何防范与规范使用
如何守住我们的“声音防线”?
8给个人的建议:增强自我保护意识
·保护个人声纹:切勿在米源不明、不可信的AP或网站上随意录入或暴露自己的声
钓科
音。
·提高警惕性:收到涉及金钱、转账的紧急陌生米电,务必通过视频、当面等其他可
靠渠道二次确认。
:不轻信单一信息:遇到突发情况保持冷静,多问细节核实身份,避免冲动决策。
公共互联网反网络钓鱼工作纠
④给社会的思考:共建全维防御体系
·技术开发者:探索声纹“数字水印”技术,为A1生成内容添加识别标记,从源头防
范滥用。
·法律法规与平台:完善A1相关立法,严厉打击A1诈骗行为:平台加强内容审核,落
实主体责任。
让我们共同努力,做负责任的技术使用者
让技术“向善”,而不是为恶。
本课知识回顾
核心概念
工作流程
(四步法)
技术发展历程
·机械时代
Ⅱ语音合成技术(TTS)
01.文本分析:理解语义,“看懂
早期的留声机,八音盒,声音概硬,单
将文本转换为语音的人工智能技术,
输入内容
是机器发出声音的基础。
02.分词处理:确定停顿位置,实现
正确断句
电子时代
■与语音识别的关系
03.韵律处理:调整语速语调,注入
拼接录音片段,成本高昂,缺乏灵活性
语音识别负责“听”懂用户,语音合
情感色彩核心难点)。
成负责“说”给用户听,两者共同构
04.语音生成:输出波形,最终“发
·AI智能时代
成了智能语音交互闭环,
出声音”。
基于深度学习的端到端合成,声音自然
流畅,接近真人水平
素养升华
技术向善,从我做起
回顾与总结
核心思想
使用者的普善恶决定技术走向
技术本身是中性的。我们应善用所学,用I创造对他人有益、
●我们学习了语音合成技术的原理和应用,亲身感受到了
积极向上的内容。
AI技术的无穷魅力与创造力。
。树立正确的技术伦理观
●我们也清醒地看到,若缺乏监管和约東,这类技术一旦
坚决维护和尊重他人的声音权,绝不盖用技术进行欺诈、造谣
或恶意模仿。
被滥用,可能会对个人、社会乃至行业带来不可估量的风
险与危害。
』做负责任的数字公民
享受技术便利的同时,时刻保特警惕,共同维护健康、可倍的
数字网络空间
下节课预告
人工智能是如何“看见”这个世界的
呢?
下节课,我们将一起探索《图像识别技术》的奥秘!