内容正文:
《语音识别技术》教学课件
浙教版初中信息技术八年级下册·智能技术初体验
2025-2026学年第二学期
我们身边的语音识别
生活中的“隐形助手”
金多有
清晨唤醒
智能导航
高效输入
便捷通讯
对智能音箱说:
开车时,对导航说
写作业时,用语音输入法
对若手机说:
“早上好,播放新闻。”
“导航到西湖。”
快速录入文字
“给妈妈打电话。“
#
引导问题:同学们,这些场景你们熟悉吗?在生活中,你还在哪些地方用过类似的语音功能呢?
为什么我们越来越依赖语音?
语音识别的四大优势
01.解放双手
02.高效输入
在写驶、运动、烹任等场景下,无雷手动操作,
说话的速度远快于打字,尤其适合长文本输入场
保隐安全与便捷,让生活更从容。
景,极大提升了信息记录的效率,
03.自然交互
04.信息获取
这是最符合人类习惯的沟通方式,简单直观,有
随时随地通过语音快速查询信息,无需手动输入
效降低了不同年龄段人群使用智能设备的门槛。
搜索关健词,让海量信息触手可及。
今天,我们一起揭开语音识别的神秘面纱!
本节课的探索之旅
是什么?
怎么听?
了解语音识别技术的定义,认识这项让机
深入探究背后的算法与原理,看看机器是
器“听懂”人类语言的关键技术。
如妇何把声波转化为文字的。
怎么用?
有何用?
亲手操作体验,在互动中感受语音转文字
发现语音识别在无障碍沟通、效率提升等
、智能语音助手的魅力
领域的广泛社会价值。
第5课
语音识别技术
正式进入本课学习,让我们一起探索人工智能“能听”的奥秘。
定义:让机器“能听会懂”
什么是语音识别技术?
I专业定义(ASR)
语音识别技术(Automatic Speech Recognition),是让机器通
核心转换逻辑
过识别和理解,将人类语音信号转换成文本或指令的人工智能技
术
语音信号)文本/指令
「通俗理解
简单来说,就是把我们日常说的话,变成电脑能“看懂”的文字
它是一种将人类语音信号转换为机器可理解数据的关键技
,或能直接去执行的操作命令。
术,实现人机语音交互的基础。
·技术归属
它是人工智能感知技术(Perception Technology)的一个非常
重要且活跃的分支
机器“听懂”的五个步骤
语音识别的核心工作流程解析
01
02
03
04
05
语音信号采集
信号预处理
特征提取
模型匹配
结果输出
利用麦克风等声学传8器
去除环境噪音、电流声干
从复杂的语音中提取独特
结合声学模型和语言模型
将识别结果转化为最终文
将声波转换为机器可识
扰,进行分顿处理,保留
的声学特征参数。构建“
,将特征与海量语音库进
木,或直接输出为可执行
别的模拟/数学电倍号
有效语音成分
声音指纹”。
行比对和识别.
的操作指令
第一步:采集声音一一
机器的“耳朵”
01.采集设备
02.核心过程
03.通俗类比
通过麦克风、专业录音设备等硬件终
将说话时物理的模拟声波,转换为机
这一环节的作用,就像人类用耳朵去
端,精准收集人类说话产生的语音,
器可识别、处理的电信号,完成“声
收集环境中的声音一样,是语音识别
作为系统的输入源,
”到“电”的关键转化,
系统的“入口”和“感知器”。
第二步:清理信号一一
让机器“听清楚”
信号预处理·核心目的
去除环垃背景噪音、回声等干扰因素,最大程度地保留并增
强有效的语音电信号
#
⊙0标准化处理·关键过程
对麦克风采集到的原始电信号进行去噪、归一化和滤波等一
系列标准化算法处理,
生活类比·直观理解
就像我们身处赠杂的房间时,大脑会自动过滤掉周围的噪音
,将注意力高度集中在对话者的声音上一样。
第三步:提取特征一找到“声音的指纹”
(●)
核心目的
形成“特征向量”
生活类比
从声音信号中精准提取关键声学特征
将复杂的声音转化为一组高维数字向
正如我们仅凭听觉就能区分父母、朋
,涵盖音调、音高、音长、语速及频
量,就像每个人独一无二的“指纹”
友的声音一样,这是因为每个人都拥
谱特征,为识别奠定数据基础
,用于区分不同说话人的身份。
有独特的音色与语调特征。
第四步:模型匹配一机器的“大脑”在思考
核心难点:模型匹配
语音识别不是简单的“听”,更重要的是“理解”。这一
海海家利有外1博斯两
步,机器将把提取的“声音指纹”,与“大脑”中存储的
大脑半球内侧面
两大核心模型进行快速对比与概率计算,最终完成精准匹
中换台数
中洗汽
配
能上
李角笔西
声学模型(Acoustic Model)
语言模型
(Language Model)
负责识别“怎么发音”。分析声音波形的物理特征
负责理解“说什么内容”。基于海量文本语料库和
,将语音信号转化为声学特征序列,精准识别每一
统计学规律,结合上下文语境,判断词汇组合的合
个发音单元
理性,解决同音不同字的歧义间题。
难点突破:声学模型一一识别“发音”
长元音
b
[a:]
海量语音样本库
音
存储了海量语音数据,深度学习并竿握不同音素(如“b
短元音
间
ID]
u
x
e
、D、m、f”)的细微发音特征与声学指纹。
[ai]
lei]
i]
[ia]
[Ea]
[eu]
[ua]
au
精准匹配音素
从输入语音中提取声学特征后,通过算法计算与比对,精
自音
p
可
k
g
61
准判断“声音指纹”最接近寒一个标准音素
角音
b
d
g
w
I
o
[ds
发音“监考官”
它就像一位极其严格且专业的语言老师,不仅能听懂你在
m
l
说什么,更能听出你的每一个发音是否“标准”,
为什么普通话比方言识别率高?
因为目前声学模型中。用于山练的普通话样本量远远多于
[w]
各类方言样本。数据量越大,模型识别越精准,
难点突破:语言模型
理解“内容”
核心作用
核心功能
存储了海量的词语、语句的
基于知识库,智能判断哪些
语法规则和语言使用规律,
词语的组合在语义和语法上
构建基础知识库。
更合理、更通顺。
形象类比
场景举例
就像一位亚谨的语文老师,
当声学模型识别出“shang
能够快速检查句子是否符
hdi”时,它能根据上下文
头流香
语法规范与表达习惯。
精准判断是“上海”还是“
伤害”。
第五步:输出结果一完成识别
智能综合匹配
旦
多形式结果输出
系统综合声学模型对声音特征的识别与语言模型对语
将最终的识别结果转化为用户可感知的形式:既可以
义逻辑的分析,通过概率计算找出与输入声音最匹配
直接生成清晰的文本内容展示在屏幕上,也可以直接
的候选结果,确保识别的准确性。
触发并执行相应的设备控制或系统指令。
为什么有时候机器会“听错”?
影响语音识别准确率的三大关键因素
静的
环境因素
语音因素
技术因素
周围环境的背景噪声太大?
普通话发音不标准?
模型训练的数据量是否充足?
说话人与麦克风的距离太远?
说话语速过快或带有口音/方言?
识别算法的精度和适配性如何?
动手试一试:让机器当“速记员”
©S语音拾入
实践任务一:语音转文字
直旋上界无需传
所需工具:手机输入法的语音输入功能,或其他在线语音转写平台。
进保生标人花
面1框们浮,的律据消年
任务步骤:
1.打开工具,将识别语言切换为“普通话”模式
2.选择一段你喜欢的文字(如朱自清《春》的片段),清晰、缓慢地朗读。
3.朗读结束后,查看机器识别的结果,并对比原文,观察识别的准确率。
实验:改变条件,结果会怎样?
对比实验:探索影响因素
分组完成以下对比实验,填写识别结果并进行分析:
识别条件
朗读内容
识别结果
准确率
原因分析
普通话、安静环境
输入统一文本内容.
记录识别出的文字
识别基准/表现稳定
方言、安静环境
用家乡话朗读同内容
记录识别出的文字
方言模型的覆盖度
快速语速、安静环境
快速朗读司内容
记录识别出的文字
断句/发音清晰度影响
普通话、嘈杂环境
播放音乐背景朗读
记录识别出的文字
背景噪音/抗干扰能力
动手试一试:让机器听你的“指挥”
实践任务二:语音指令控制
准备工具:手边的智能音箱(如小爱同学、天猫精
灵)或手机语音助手(Sir1、小艺等)。
①询问时间:对设备说:“喱,现在几点了?“
②智能控制:对设备说:“帮我打开台灯”(如果连接了
智能灯具)。
③娱乐互动:对设备说:“播放一首周杰伦的《晴天》”
语音转文字vs语音指令控制
思考与讨论:技术路径与应用目标的差异
语音指令控制(Voice
语音转文字(Speech-to-Text)
Command)
H
相同点:共享核心技术流程
相同点:共享核心技术流程
均需经过信号采集→特征提取→声学/语言模型匹
与语音转文字同源,均需完成声音的采集与识别,确
配的底层技术路径,核心在于对声音的识别与理解。
保对用户意图的精准捕捉
差异点:核心产出为“信息记录”
最终输出结果是可视化的文本,侧重于将语音信总转
差异点:核心产出为“行动指令”
化为可留存,可阅读的文字,用于会议纪要、字幕生
输出的是设备可执行的控制信号,直接触发硬件动作
成等场景
或软件操作,侧重“人机交互”与“任务执行”。
我们的发现
实践总结·语音识别技术观察
高准确率的条件
识别效果的干扰因素
广泛的应用场景
这项技术不仅能高效实现“转文学
语音识别技术在安静环境下,使用
现实场景中的口音、方言、背景噪
标准普通话进行表达时,识别准确
”速记,还能作为“控设备”的智
声和过快/过慢的语速,都会对语膏
能指令入口,在生活与工作中应用
率通常非常高。
识别的准确率产生明显影响。
十分广泛
生活应用:无处不在的语音助手
案例一:丰富我们的生活
智能音箱
语音导航
家庭智使中控中心,轻松实现控制家电开关
驾驶场景下的最佳拍档,通过语音指令规划路
查询天气新闻、播放音乐娱乐内容
线,解放双手,让出行更专注、更安全
语音输入法
智能客服
说话即打字,大幅降低输入门槛,有效提高日
提供7x24小时不间断的服务,快速识别并精
常沟通、会议纪要及文案写作的效率。
准解答用户疑问,提升服务响应速度。
技术向善:传递温暖与关怀
CASE O2·让科技更有温度:
服务特殊群体
视障人士·“听见”世界
银发一族·简单易用
行动不便·独立生活
通过语音辅助设备“阅读”屏幕内容,
无需学习复杂的触屏操作,仅通过日
通过语音指令远程控制家中的智能电器
精准识别周围环境,让声音成为他们感
口语化的语音指令,即可轻松享受智能
,减少对他人的依糗,在科技的帮助下
知世界的“眼睛”。
设备带来的便利生活。
最大程度实现生活自理。
行业应用:提升效率与生产力
案例三:赋能各行各业
医疗/Medical
教育/Education
医生口述病历,自动生成电子文档,大
支持课堂内容的实时语音转写,方便学
幅减少文书工作时问,将更多精力专注
生课后回顾重点:并能铺助语言学习:
于患者诊疗。
实时纠正发音问恶。
司法/Judicial
工业/Industry
实现庭审现场的全自动语音记录,准确无误
让工人在佩戴手套或双手繁忙时,通过简单
地捕捉每一句发言,极大提升了法庭记录的
当
的语音指令远程操控工业设备,既提高了生
效率和准确度。
产效率,也增强了操作安全性。
语音识别的昨天、今天和明天
技术的发展与趋势:从孤立识别到多模态智能融合
图表培金识明社米然现万程
实的工有青海前医e室室T一中利钢十中有文室
计探家合位闲棒给T串香筑家厅无项,维时丽方重票成是是风据T海市规刻
分为数卡门。满中形市信开她解法了选智密9产生模里方州起:对港家的
清售次有消城发理了实时。生理位上性城薄诺一油发侧.达起时自作美
昨天·20世纪
今天·21世纪
明天·未来
线学肩保形性末行等发人兴空喻天积梨填,
香香段起样代线一卡南以入,美温香神保-◆山建想相人工神能无风能线
康本重名销我关苹渐工型化飘写为生室病彩意了箱到以填,纳
有新偏得特,
受限于计算能力,技术
深度学习技术成为核心
期图民及向和金事:群香品合辉得验■系性案写花年数产气
向“多模态避合”演进
尚处起步阶段,仅能识
驱动力,识别准确率大
系镜食道性关湾可调么球声唐,型文护有调度平南等法州力传清定
别极少量的数字和孤立
幅提升至实用水平,广
,结合唇语、表情理解
通流来
语境,实现高度个性化
词语,应用场景非常有
泛应用于生活和各行各
面量大要推黄用。多常有铁在“中询净河下通不参胡提参通,洲如世有场食
限。
业。
的智能语音交互体验。
飞速发展的智能语音市场
全球市场规模预测
权威数据显示,预计到2025年,全球语音识别市场总规
模将突破387亿美元,展现出强劲的市场爆发力。
企业级应用成增长引擎
除消费级产品外,智能语音技术正快速渗透至企业级场
景。智能客服、智慧医疗等垂直领域的应用需求激增,
成为驱动市场持续扩张的新动力:
AI领域的高潜力赛道
凭借广泛的应用场景和坚实的技术基础,语音识别技术
已成为人工智能领域中商业化价值最高、发展潜力最大
的细分赛道之一。
技术的边界与我们的责任
技术挑战
隐私安全:数据的边界
声音作为生物特征之一,其数据如何存储与
使用?我们如何在提供服务的同时,严守个
人隐私的红线?
在追求极致语音交互体验的道路上,我们依然面
临技术难题:
·如何在多语种混杂的环境下,精准识别不同的方言
认知思考:避免信息茧房
和口音?
过度依赖语音助手的推荐与执行,是否会让
·如何在车站、街道等极度嘈杂的背景噪音下,保持
我们的思维变得懒惰,最终困在“信息茧房
”中,失去深度思考的能力?
语音识别的高准确率?
本课核心知识回顾
01/一个定义
02/五个步骤
语音识别技术是将语音信号转换为文本或指令
信号采集一预处理一特征提取一模型匹
的AI技术,是实现人机语音交互的核心基石,
配一结果输出,环环相扣的工程链路。
03/两大模型
04/三大价值
·便利生活:解放双手,让设备更“懂”人
·声学模型:负责对发音进行识别,处理“怎
么说”的物理特征
·服务社会:为听障群体提供信息无障碍支持
·语言模型:负责理解语义内容,解决“说什
·赋能行业:重塑客服、医疗、教育等领域的
么”的逻辑分析。
工作流,
我们的收获
素养提升·全面进阶
信息意识
计算思维
认识到语音识别技术的价值与局限,学会理性看
理解语音识别肯后的信号处理,特征提取与模型
待和评估AI技术的实际应用效果,
匹配逻辑,竿握基本工作流程。
数字化学习与创新
信息社会责任
然练掌握主流语音识别工具的使用方法,能够利
树立“技术向善”的价值观,在使用语音服务时
用技术辅助学习和提升工作效率
,建立起强烈的个人隐私与数据保护意识
感谢聆哌
今天我们学习了机器如何“听”,下节课我们将探索机器如何“说”一一语音合成技术。