4.2.3 文本数据处理 4.2.4 数据可视化 课件-2023—2024学年浙教版(2019)高中信息技术必修1

2023-11-22
| 27页
| 1210人阅读
| 4人下载
特供

资源信息

学段 高中
学科 信息技术
教材版本 高中信息技术浙教版必修1 数据与计算
年级 -
章节 4.2 大数据处理
类型 课件
知识点 -
使用场景 同步教学-新授课
学年 2023-2024
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 PPTX
文件大小 4.93 MB
发布时间 2023-11-22
更新时间 2023-11-24
作者 忆李茹慧
品牌系列 -
审核时间 2023-11-22
下载链接 https://m.zxxk.com/soft/41913972.html
价格 2.00储值(1储值=1元)
来源 学科网

内容正文:

第四章 数据处理与应用 4.2 大数据处理 4.2.3 文本数据处理 4.2.4 数据可视化 学习目标 了解文本处理应用领域及一般处理过程。 了解中文分词常用算法及特征提取方式。 能使用常见分词系统(如:jieba分词)进行文本数据处理。 了解数据可视化的作用。 了解数据可视化相关工具及原理。 知识点一:文本数据处理 新课讲授 文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。 1.文本数据处理的一般过程 (1)中文分词(是中文文本信息处理的基础) ①基于词典的分词方法(字符匹配) ②基于统计的分词方法 ③基于规则的分词方法 ①基于词典的分词方法 也称作基于字符匹配的分词方法,即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。常见分词系统有jieba分词。 import jieba #引入jieba分词模块 text="文本数据处理的过程" #定义文本 seg_list1=jieba.cut(text,cut_all=True) #全模式分词 print("全模式分词:"+"/".join(seg_list1)) #文本/本数/数据/数据处理/处理/的/过程 seg_list2=jieba.cut(text) #默认是精确模式分词 print("默认模式分词:"+"/".join(seg_list2)) #文本/数据处理/的/过程 join():用于把序列中的所有元素放入一个字符串,元素是通过指定的分隔符进行分隔的。 cut_all=True全模式分词:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 cut_all=False精确模式分词:试图将句子最精确地切开,适合文本分析。 ②基于统计的分词方法 依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词。一般是将其与基于词典的分词方法结合使用。 ③基于规则的分词方法 通过让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。这种分词方法目前还处于试验阶段。 (2)特征提取 特征项:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。 特征词:相比较而言,词的切分难度小且更能表达文本的含义。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。通常可直接用分词算法和词频统计得出的结果作为特征词,但对于稍大一些的文本,提取出的特征词数量将非常大,其计算处理过程的效率非常低,计算结果的准确性也很难令人满意。 因此,必须找出最具代表性、最有效的文本特征,通常的办法是通过特征提取来减少特征词的数量,提高文本处理的速度和效率。 特征提取的方式: 根据专家的知识挑选有价值的特征; 用数学建模的方法构造评估函数自动选取特征(目前大多基于概率统计设计)。 2.文本数据分析与应用 在取得特征词后,需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。 (1)标签云 用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。是文本可视化的一种方式,广泛应用于报纸、杂志等传统媒体和互联网。 (2)文本情感分析 通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。根据分析的粒度不同,分为词语级、语句级、整篇文章级三类。主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。 (2)文本情感分析 通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。 知识点二:数据可视化 将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。 1、可视化的作用 (1)快捷观察与追踪数据 利用可视化技术,可以将处于不断变化中的数据生成实时变化的可视化图表,帮助人们快捷地发现各种数据的动态变化过程。如百度地图提供的实时路况服务,中国天气网提供的各地天气实况。 (2)实时分析数据 利用可视化技术,可以实时将数据转换为图像呈现给用户,帮助用户分析数据的内涵和特征。如利用百度指数分析全国某段时间搜索关键词“数据可视化”的情况,通过交互,用户可以选择从趋势研究、需求图谱、舆情洞察、人群画像等多个角度进行分析。 (3)增强数据的解释力与吸引力 利用数据图表,直观、动态地呈现新闻、研究报告等内容,可以帮助

资源预览图

4.2.3 文本数据处理  4.2.4 数据可视化  课件-2023—2024学年浙教版(2019)高中信息技术必修1
1
4.2.3 文本数据处理  4.2.4 数据可视化  课件-2023—2024学年浙教版(2019)高中信息技术必修1
2
4.2.3 文本数据处理  4.2.4 数据可视化  课件-2023—2024学年浙教版(2019)高中信息技术必修1
3
4.2.3 文本数据处理  4.2.4 数据可视化  课件-2023—2024学年浙教版(2019)高中信息技术必修1
4
4.2.3 文本数据处理  4.2.4 数据可视化  课件-2023—2024学年浙教版(2019)高中信息技术必修1
5
4.2.3 文本数据处理  4.2.4 数据可视化  课件-2023—2024学年浙教版(2019)高中信息技术必修1
6
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。