第4章 第18课 文本数据处理 数据可视化-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参(浙教版2019)

2025-11-15
| 9页
| 35人阅读
| 2人下载
教辅
浙江良品图书有限公司
进店逛逛

资源信息

学段 高中
学科 信息技术
教材版本 高中信息技术浙教版必修1 数据与计算
年级 高一
章节 4.2 大数据处理
类型 教案-讲义
知识点 大数据分析和处理
使用场景 同步教学-新授课
学年 2024-2025
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 DOCX
文件大小 1.91 MB
发布时间 2025-11-15
更新时间 2025-11-15
作者 浙江良品图书有限公司
品牌系列 精彩三年·高中同步课程探究与巩固
审核时间 2025-07-29
下载链接 https://m.zxxk.com/soft/53249879.html
价格 2.00储值(1储值=1元)
来源 学科网

内容正文:

第18课 文本数据处理 数据可视化(见学生用书P99) ——4.2 大数据处理 4.3 大数据典型应用,教材第138~153页 1.掌握文本数据处理的一般过程与基本方法。 2.理解特征词、词频、标签云等概念。 3.掌握数据可视化的作用、基本方法和工具,感悟大数据可视化的意义。 4.了解实际生活中常见的大数据应用。 1.文本数据处理 (1)文本数据处理主要应用在__搜索引擎__、情报分析、__自动摘要__、自动校对、论文查重、文本分类、垃圾邮件过滤、__机器翻译__、自动应答等方面。 (2)典型的文本处理过程主要包括__分词__、__特征提取__、__数据分析__、__结果呈现__等。 (3)分词:将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个一个单独的词。常用的中文分词算法有:__基于词典的分词方法__、__基于统计的分词方法__、__基于规则的分词方法__。 ①基于词典的分词方法,也称作基于字符匹配的分词方法,即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。常见分词系统有__jieba__分词。 ②基于统计的分词方法,统计分词的思想是依据上下文中相邻字出现的__频率统计__,同时出现的次数越高就越可能组成一个词。在实际应用中,一般是将其与基于词典的分词方法结合使用。 ③基于规则的分词方法,通过让__计算机__模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。这种分词方法目前还处于试验阶段。 (4)特征提取 ①特征词:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。目前,大多数中文文本分析中都采用词作为特征项。通常可直接用__分词算法__和__词频统计__得出的结果作为特征词。 ②特征提取:一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用__评估函数__进行特征提取的方式。 (5)文本数据分析与应用:在取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。 ①标签云:标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以__文字大小__的形式代表词语的重要性。标签云广泛应用于报纸、杂志等传统媒体和互联网。 ②文本情感分析:通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。文本情感分析主要应用于__网络舆情监控__、用户评论分析与决策、信息预测等众多领域。 2.数据可视化 (1)数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。 (2)可视化的作用 ①__快捷观察与追踪数据__:利用可视化技术,可以将处于不断变化中的数据生成实时变化的可视化图表,帮助人们快捷地发现各种数据的动态变化过程。如百度地图提供的实时路况服务。 ②__实时分析数据__:利用可视化技术,可以实时将数据转换为图像呈现给用户,帮助用户分析数据的内涵和特征。如利用百度指数分析全国某段时间搜索关键词“数据可视化”的情况。 ③增强数据的__解释力__与__吸引力__。利用数据图表,直观、动态地呈现新闻、研究报告等内容,可以帮助人们在短时间内了解内容、理解数据背后的含义,同时增强数据的吸引力,提高人们的阅读兴趣,如新闻报告可视化。 (3)可视化工具 主要用于数据可视化的工具有大数据魔镜、Gephi、Tableau等,也可以使用Python、R等计算机语言编写程序实现数据的可视化。此外,还有一些优秀的可视化工具库,如基于JavaScript的D3.js、Highcharts、Google Charts等,基于Python的matplotlib等。 3.大数据的典型应用 随着大数据在各行业的应用,数据成为核心资产。目前,大数据广泛应用于金融、交通、环境、医疗、能源、农业等行业。 (1)智能交通 ①智能交通整合了物联网、大数据、云计算、人工智能等技术。 ②交通数据采集:GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构筑了交通大数据。__交通大数据__是智能交通中“智能”的基础。 ③__云计算__为大数据的分析应用提供了速度保障。基于深度学习的智能分析算法,为大数据的分析应用提供了有力的支撑。 ④智能交通主要通过交通信息服务、交通管理、公共交通、车辆控制、货运管理、电子收费、紧急救援等服务子系统为用户提供服务。 (2)电子商务 ①电商数据来源:大型电商企业拥有大量用户数据。同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。 ②电商数据通过电商企业的数据平台,为其电子商务平台上的商户和客户提供精准营销、供应链管理、智能网站等多种数据服务。 1.jieba分词 import jieba  #引用jieba分词模块 text=”文本数据处理的过程” #定义文本 seg_list=jieba.cut(text,cut_all=True) #全模式分词 print(”全模式分词: ”+”/”.join(seg_list)) seg_list=jieba.cut(text) #默认是精确模式 print(”默认模式分词: ”+”/”.join(seg_list)) 2.可视化的基本方法 类别 数据间关系的描述 可视化方法 有关时间趋势的可视化 时间序列数据变化的过程和趋势 柱形图、折线图等 有关比例的可视化 各部分的大小及其占总体比例的情况 饼图、环形图等 有关关系的可视化 变量之间的关联性和分布关系 散点图、气泡图等 有关差异的可视化 多种变量的对象与同类之间的差异和联系 雷达图 有关空间关系的可视化 分析和展示与地理数据相关的数据 地图   下列数据处理中,不属于文本数据处理的是( C ) A.根据白名单和黑名单机制,进行垃圾邮件的识别 B.在线客服通过自动应答技术回答问题 C.实时监测景区的人流数据,控制过多的游客进入景区 D.分析消费者的意见数据,挖掘用户观点,辅助运营决策 【解析】 实时监测景区的人流数据为视频等流媒体数据处理,选项C错误。 变式  2024·兰溪一中检测知识图谱是大数据文本分析的一种典型应用,可以通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法引入文本数据分析领域,并结合共现分析手段,可视化语义网络呈现各类文本/信息之间的内在相关关系、时间维度上的动态关系。下列说法不正确的是( C ) A.文本数据处理的一般过程为分词、特征提取、数据分析和结果呈现等 B.在中文文本分析中, 可以采用字、词或者短语作为表示文本的特征项 C.基于规则的分词方法是依据上下文中相邻字出现频率与规则来进行分析,jieba模块就是一种典型应用 D.对大量数据进行静态数据分析, 可以使用Hadoop架构来作为依托 【解析】 jieba模块是基于词典的分词方法的应用,选项C错误。   编写一个Python 程序,为一篇主题关于“碳中和”的文章创建了如图所示的标签云。下列说法不正确的是( A ) A.这篇文章属于结构化数据 B.该程序可以使用jieba 模块进行分词 C.基于词典和基于统计的分词方法一般是结合使用的 D.标签云用词频表现文本特征,词频越高的文字越大 【解析】 文本内容是非结构化的数据,选项A错误。 变式  小吴同学利用Python中的jieba分词模块对文件“三国演义.txt”进行处理,创建了如图所示的标签云。下列说法正确的是( C ) A.该中文分词算法是基于规则的分词方法 B.标签云中必须显示该文本中包含的全部词语 C.从标签云中可以推测,“孔明”“曹操”“刘备”是该小说的主角 D.目前特征提取大多采用的方式为根据专家的知识挑选有价值的特征 【解析】 选项A,该中文分词算法是基于词典的分词方法,选项错误;选项B,无法显示所有词语,选项错误;选项D,还有基于数学建模的方法构造评估函数自动选取特征,选项错误。   用户在网上购物时,快递物流等待时间与用户心情愉快程度有关联,等待的时间越长,用户心情愉快程度越低,为了体现这些数据关系,应采用( B ) A.饼图 B.散点图 C.柱形图 D.雷达图 变式  2024·东海中学检测下列关于大数据及数据处理的说法中,不正确的是( C ) A.处理大数据时一般采用分治思想 B.文本数据处理可应用于消费者意见数据的分析 C.大数据要分析的是全体数据,每一个数据都必须准确 D.探究具有关联性数据的分布关系,可以使用散点图、气泡图 【解析】 大数据要分析的是全体数据,但不需要每一个数据都准确,选项C错误。   下列关于大数据在电子商务方面的应用的说法中,正确的是( D ) A.精准营销基于用户购买行为的大数据,使用推测算法深度挖掘出用户行为偏好 B.在供应链管理中,根据商品的销售情况和市场预期数据,依靠推断模型,实现商品自动补货 C.在交易、营销、供应链、仓储等环节不会产生太多数据 D.基于大数据挖掘和分析,电商网站变得越来越智慧 【解析】 选项A,使用推荐算法深度挖掘出用户行为偏好,选项错误;选项B,依靠预测模型,实现商品自动补货,选项错误;选项C,会产生大量数据,选项错误。 |随|堂|检|测| 1.下列不属于常用中文分词算法的是( D ) A.基于字符匹配的分词方法 B.基于统计的分词方法 C.基于规则的分词方法 D.基于人工操作的分词方法 【解析】 常见的分词方法有基于词典的分词方法、基于统计的分词方法、基于规则的分词方法。选项D符合题意。 2.2024·缙云中学检测下列关于大数据的文本数据处理的说法中,正确的是( D ) A.jieba模块的分词算法属于基于统计的分词方法 B.大数据文本情感分析是电脑将自己的情感表现出来 C.文本处理过程中一般先进行数据分析,再分词并提取特征,最后呈现结果 D.标签云一般根据词频表现文本特征,以文字大小代表词语的重要性 【解析】 选项A,jieba模块的分词算法属于基于词典的分词方法,选项错误;选项B,大数据文本情感分析是指通过计算机技术对文本的主观性等进行分析,对文本的情感倾向做出分类判断,选项错误;选项C,文本处理过程为分词、特征提取、数据分析、结果呈现,选项错误。 3.编写一个Python 程序,读入《三国演义》的文本内容,使用jieba 模块对文本进行中文分词,按回合统计“刘备”和“诸葛亮”的出场频率,并使用matplotlib 模块实现数据可视化,效果如图所示。下列说法不正确的是( D ) A.原始的《三国演义》文本内容属于非结构化数据 B.文本数据处理过程中先完成中文分词再进行特征提取 C.由图中可以观察到“诸葛亮”在前30回合出场频率极低 D.图中“诸葛亮”的出场频率使用散点图实现数据可视化 【解析】 图中“诸葛亮”的出场频率使用折线图实现数据可视化,选项D错误。 4.小林为50 篇关于“学习经验分享”的文章创建了如图所示的标签云。下列说法 正确的是( D ) A.对文章内容应先进行特征提取,再分词 B.jieba 模块采用的是基于规则的分词方法 C.该标签云显示了文章中的所有词语 D.词语“整理”比“心态”出现的频率高 【解析】 选项A,先进行分词,再进行特征提取,选项错误;选项B,jieba 模块采用的是基于词典的分词方法,选项错误;选项C,该标签云显示了文章中的词频较高的词语,选项错误。 温馨提示:请完成高效作业18 ) 学科网(北京)股份有限公司 $$

资源预览图

第4章 第18课 文本数据处理 数据可视化-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参(浙教版2019)
1
第4章 第18课 文本数据处理 数据可视化-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参(浙教版2019)
2
第4章 第18课 文本数据处理 数据可视化-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参(浙教版2019)
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。