内容正文:
《语音合成技术》教学课件
浙教版初中信息技术·八年级下册
情境导入:神秘的声音
听一听,猜一猜
真人朗读
(教师活动)请点击播放以下两段音须:一段是真人朗读课文片段
,另一段是语音合成软件朗读同一段文本。请仔细聆听并分辨其中
富有情感色彩·语调抑扬顿挫
能根据语境灵活调整语速和语气
的差别。
Q1.你听出这两段声音有什么明显的不同吗?(语速
、语调、情感等)
AI机器合成
Q2.第二段声音听起来是真人朗读的吗?你觉得它是
音色高度一致·机械且稳定
生成速度极快,但情感相对匮乏
如何产生的?
情境导入:无处不在的“机器声音”
出行导航
|公共交通
“前方路口左转。”
“下一站,人民广场。”
驾驶途中的实时语音指引,让出行更高效。
地铁公交的自动报站系统,精准提示站点信
更安全,
息,方便市民出行,
智能陪伴
知识获取
“今天天气不错,适合出门。”
“欢迎来到有声读物世界。”
智能音箱随时响应指令,提供生活资讯,是
斯书ADD利用合成语音将文字转化为声音,
贴心的家庭小助手
让学习与娱乐随时随地
课堂讨论:我们身边的语音合成
互动话题
生活中的发现
除了刚才提到的场景,你还在哪里听过类似的机器
声音?
带来的便利
这些声音给我们的生活带来了那些便利?
揭示课题:第六课语音合成技术
今天,我们将一起揭开这些“机器声音”背后的秘密一一语音
合成技术。
01理解原理
02掌握操作
语音合成是如何
如何壮电脑为我们
工作的?
“朗读”?
点亮灵感·探索新知
03学会应用
04树立责任
VOICE SYNTHESIS TECHNOLOGY
语音合成技术有哪些
如何正确使用
神奇的用途?
这项技术?
新知探究:什么是语音合成技术?
让机器“开口说话”
AI核心中枢
理解语义·模拟发声·自然交流
0l/定义Definition
语音合成技术(Text-to-Speech,TTS),就是利用计算机模拟人
类发音,将文本信息转换成自然流畅语音的人工智能技术,简单来
说,就是“让机器能说会道”
02/核心类比Analogy
语音识别(ASR)
语音合成(TTS)
如果说语音识别(AS)是让机器“听懂”我们说话,那么语音合
“听”懂人类说话
“说”出自然语音
成(TT$)就是让机器“开口”回应我们。二者构成了人机语音交
语音一文本
文本一语音
互的闭环。
新知探究:智能交互的“听”与“说”
语音识别
(ASR)
语音合成
(TTS)
机器的“耳朵”·负责听懂人类语言
机器的“嘴巴”·负责语音回应与播报
交互方向:语音(声波)一文本/机器指令
交互方向:文本/数据一语音(合成声波)
核心作用:解决机器“听不见”的问题,将听觉信
核心作用:解决机器“不会说”的问题,赋予机器
号转化为可处理的数据。
发声和表达的能力
生活例子:对手机说“嘿S1ri,打开音乐”、会议
生活例子:导航APP实时播报路线、电子书的有声
录音转文字。
朗读功能。
两者结合,共同构成了智能语音交互的完整闭环
新知探究:机器是如何“朗读”一篇文章的?
01
02
03
04
看文本
断句子
加感情
发声音
(文本分析)
(分词处理)
(韵律处理)
(语音生成)
机器首先要“读伍”文字,识
得连续的文本分制成独立的词
为文本赋了“灵魂”,计算每
结合前面的韵律数据。通过声
别出文章中的字词、标点符号
汇和句子,确定正确的切分点
个字词的发音时长、语调高低
学模型生成最终的音频信号
和段落结构
为后续明读打好基础。
以及句子间的停顿
让机器开口“说话”
流程详解①:看懂文字,学会断句
文本分析(Text Analysis)
处理效果演示
计算机首先要“看”懂输入的内容,包括汉字、标点
、数字、英文等。例如,将“2026年”准确理解为读
音“二零二六年”,为后续的语音合成提供正确的文
本基础。
原始输入
分词处理后
2026年
2026年春天
春天来了!
来了!
X
分词处理(Word Segmentation)
计算机需要像人一样给句子划分停顿,精准确定词语
的边界。若断句错误,就可能闹出“南京市长/江大桥
”这样的语义笑话,这是语音合成中保证逻辑通顺的
关键。
通过空格分隔,可以清晰地看到同语边界的划分
流程详解②:注入灵魂,抑扬顿挫
什么是“韵律”?
简单来说,就是我们说话时的停顿、重音、语速、语调的综合表
现。它是决定合成语音听起来是否自然、有感情的核心关键!
严肃警示
电
欢快陈述
“请不要随地吐痰!”
“春天来了,花儿开了!”
语气严肃,结尾降调,
语气轻快,结尾升调,
重音放在“不要”二字上,
语速稍快,传递出发现美好
表达强烈的制止意图。
事物时的喜悦与兴奋。
难点突破:如何让声音更像真人?
优秀的语音合成技术,需要精细打磨这五个关键要素,还原人声的自然韵律:
停顿
重音
音调
语速
情感
根据标点符号和句子结
精准识别关键词,通过
根据内容场最动态调整
捕捉文本的情绪色彩,
区分疑问句的升调与陈
构,智能设置不同时长
音量和音色的微妙变化
述句的降调,模拟真人
,如新闻插报需平稳客
精准模拟高兴、悲伤、
的停顿,让语句呼吸感
加重发音,清晰传递核
观,讲述故事则有快慢
严肃等丰富情感,传递
抑扬顿挫的语调变化.
更自然。
心语义,
起伏。
温度。
流程详解③:发出声音
韵律分析就绪
经过文本分析与韵律建模,计算机已“胸有成竹”:它明
确了每个字的发音、语句中的停顿位置以及重音的强弱分
布,为“开口说话”做好了充分准备。
语音素材库
智能拼接
拼接与合成:像搭积木一样“说话”
标量声在片段储备
情准匹配与连接
最后一步,系统会调用庞大的“语音素材库”,从中精准
取出对应的基础发音片段《语音单元),按规则将它们像
搭积木一样平滑拼接,最终合成并输出流畅、自然的完整
完整语音流(Speech Output)
语音。
新知探究:语音合成技术的进化史
早期阶段
机械/参数合成
88
中期阶段
现代阶段
单元拼接合成
A!端到端合成
声音生硬、机械感强
流畅自然,以假乱真
自然度提升,但有拼接痕迹
受限于当时的计算能力与模型复杂度
将录制好的语音切割成更小的单元进
基于深度学习模型,直接从文本生成
,合成语音缺乏韵律感,语调单一,
行拼接组合。虽然语音的清晰度大幅
高质量语音波形。能精准模拟人类说
话的情感、韵律和节泰,生成的声音
听起来就像传统的“机器人”在说话
改善,但在句子连接处容易出现停顺
、不连贯或语调突变的现象。
流畅自然,在许多场景下已能达到“
以假乱真”的效果。
实践操作:动手试一试,让电脑为你朗读
9际
三无
<I>
任务
(Task)
示击梦人带量
湖修发宁件者指
我们将使用在线语音合成平台,输入一段测试文本
速牌更能岩设视纳的定丰
,体验不同语音风格,并最终完成文本的自动朗读
包的间
生成。
能
有理用度甲
金收料我理
型上响料
准备
(Preparation)
3杂击影发强人,线法男的主理香
雪裤组厘
1.打开电脑上的任意浏览器
(Chrome Edge
0
Firefox均可)
2.在地址栏输入指定的在线语音合成平台网址并
访问。
实践操作:操作步骤
01
02
STE01·输入
文木输入据(支持批量结贴
输入文本
选择参数
将指定文本(如古诗《望岳
根据需求自由组合:
)准确复制粘贴到系统的文本
·音色:男声/女声/童声
输入框中。
。
语速&音调:多级可选
STEP02·设置
声音风格与朗读参数配置而板
03
04
STEP03-04·试听&导出
合成并试听
保存文件
点击播放按钮试听,确认无误后点击下载保存
点击“合成语音”按钮,等待
若对试听效果满意,点击下载
系统生成音频。
按钮,即可将生成的语音音频
立即播放,实时聆听效果。
保存为文件。
基础实践①:朗读古诗《望岳》
诗句原文
岱宗夫如何?齐鲁青未了。
造化钟神秀,阴阳割昏晓。
齊魯
宗夫
思考时刻
朗读这首古诗时,语速应该快还是慢?哪里需要停顿才能更好地表达情感
动手操作
尝试在系统中调整不同的语速和音调参数,生成语音,找到最能体现古诗
韵味的设置。
基础实践②:发布一则校园通知
白通知文本内容
“请全体同学注意,明天下午三点,在学校体育馆举行消防
安全演练,请准时参加。”
思考时刻
合成操作
根据通知的场景,选择合适
通知应该用什么样的语气?
男声还是女声更合适?
的音色,并调整语速和语调
模拟出严肃且清晰的广播
需要传达出什么样的感觉?
通知效果。
实践记录与对比
请同学们填写下方的实践记录表,对比在朗读不同文本时,选择不同音色、语速和音调所产生的合成效果,并提出针对
性的优化建议。
文本内容
音色选择
语速
音调
合成效果(主观评价】
优化建议
例如:沉稳男声
中速/慢速
中/略高
富有感情/过于平淡
调整语速,增加顿挫感
古诗《望岳》
/温柔女声
(标为数值)
(标为数值)
断句是否自然?
增强语气起伏
例如:播报员音
正常/稍快
标准/略低
清晰易懂/吐字不清
降低音调,突出重点信息
日常通知
/客服女声
(标为数值)
(标为数值)
是否有亲和力?
提升整体清晰度
拓展实践:创意工坊,制作你的专属语音作品
01/任务二选一
校园广播通知
为班级制作一则下周的活动通知,清晰传达关键信息
有声读书笔记
为你最近读的一本书,录制一段精彩片段的朗读分享
核心要求:合理运用语速、音调、停顿技巧
让作品更生动:
作品分享与评价
创意分享时刻
邀请几位同学上台展示自己的创意语音作品,分享你的制
作思路与灵感来源。
互评维度参考:
语音质量
语调语速
内容创意
清晰、自然
贴合场最
构思新颗
案例分析:生活服务
车载导航
智能客服
有声读物/听书
解放双手,让驾驶更安全。
7x24小时在线,随时解答问题。
让眼睛休息,随时随地“阅读”。
案例分析:教育学习
有声教材
帮助学生随时随地复习课文,利用碎片化时间巩固知识
,提升学习效率。
语言学习
永德读屏软件
Cn
提供标准的发音示范,支持多语种切换,用于跟读练习
,帮助纠正发音,提升口语水平。
东维面人可
辅助学习
帮助视力障碍或阅读困难的学生“听”懂课本内容,打
破视觉障碍,实现教有资源的无障碍获取,
案例分析:公共服务
金
应急广播
交通枢纽
银行/医院叫号
为机场、火车站提供清晰、标准的航
通过语音叫号实现业务办理的有序引
在紧急情况下,快速向公众传递重要
班与列车信息播报,引导旅客有序出
导,优化服务流程,有效或少客户等
信息,保障信息高效触达。
行
待焦虑
社会价值讨论:。技术向善,语音合成的力量
小组讨论
语音合成技术给哪些特殊群体带来了便利?它有哪些重要
的社会意义?
信息普惠
文化传播
提升效率
让不识字或视力障碍
通过语音复刻保护和
在客服、有声读物等
的人也能无障碍获取
行业中极大解放了人
信总
传承颜危的方言文化
力
伦理思考:技术是一把双刃剑
如果被恶意利用,后果不堪设想
利用语音合成技术模仿他人声音,实施诈骗、造谣、勒索等
行为,将严重侵犯个人隐私与财产安全,甚至引发社会信任
危机。
△口典型风险场景
诈期分子利用A1技术生成高度逼真的“领导”或“亲友”语
音,诱导受害者进行转账汇款,防不胜防,
拒绝技术滥用
技术发展的初衷是造福人类
而非成为作恶的工具
做负责任的数字公民
。保持警惕,不轻信、不转账,多方核实陌生语音。
共建可信·安全·美好的数字世界
·规范技术使用边界,严守法律与道德底线。
·树立正确价值儿,共同纸到和举报技术滥用行为。
课堂小结:本节课我们学到了什么?
一个定义(TTs)
四个核心流程
一个技术关键
语音合成(Text-to-Speech
文本分析一分词处理一韵
韵律处理是语音合成的灵魂。
01
,是将文本转化为自然语音的
律处理一语音生成。这四个
它决定了合成语音的自然度
技术,通俗地讲,就是让机器
02
步骤环环相扣,共同完成语音
031
停顿和语调,是避免“机器人
像人一样“开口说话”。
合成的任务
味”的核心技术环节。
三大应用领域
项社会责任
·生活服务:智能音箱互动、地图导航语音播报、短视
技术发展的最终目的是造福人类,我们在享受语音合成
04
频配音
带来便利的同时,必须遵守法律法规,坚持“技术向善
·教育学习:有声读物、语言听力助手、教材同步音频
05
”,合理规范地使用技术,共同维护一个健康、可信的
·公共服务:视障人士阅读辅助、政务/银行热线语音引
数字生态环境
导
知识关联:智能语音交互的闭环
我们学习了语音识别(“听”)和语音合成(“说”)。将两者结合,机器不仅能听懂我们的指令,还能自然地回应我
们,从而构建一个完整的人机对话系统,让生活更加智能便捷。
语音识别(听)+语音合成(说)=完整的智能语音交互
1.语音输入
2.语音识别(ASR)
3.语义理解(
(NLP)
4.语音合成(TTS)
5.语音输出
捕捉用户声音信号
将语音转为文字
分析并理解用户意图
将文字转换为语音
播放机器回应
总结与展望:探索人工智能的更多奥秘
总结
。Summary
今天我们学会了让机器“开口说话”,感受到了人工智能
的魅力。希望大家能学以致用,将今天草握的知识运用到
实践中,用技术创造更美好的生活。
展望·uture
下节课,我们将继续探索人工智能“能看”的奥秘一图
像识别技术。敬请期待:
感谢聆听!
期待与您的下一次相遇