课件编号20024883

4.2.3大数据处理_文本数据处理 课件(共20张PPT)(浙教版高中信息技术必修一)

日期:2024-05-16 科目:信息技术 类型:高中课件 查看:56次 大小:5891946Byte 来源:二一课件通
预览图 1/9
数据处理,4.2.3,必修,信息技术,高中,教版
  • cover
(课件网) 4.2文本数据处理 第四章 数据处理与应用 文本数据处理:从大规模的文本数据中提取出符合需要的信息 主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。(了解) 文本数据处理的应用p138 文本数据处理的一般过程p138-140 文本内容是非结构化数据→ →结构化数据 分词 数据分析 文本数据源 特征提取 结果呈现 将一个内容序列切分成一个一个单独的词 (1)基于词典的分词方法(jieba) (2)基于统计的分词方法 (3)基于规则的分词方法(试验阶段) 获取文本中最重要的字、词或短语 选取合适的工具或算法抽取文本中的隐含价值 标签云 字、词、短语作为特征项 情感分析 根据专家知识挑选或数学建模(庞大训练数据集) 项目学习1:中文分词jieba 文本数据处理的过程 案例1: 把句子中所有可以成词的词语都扫描出来 试图将句子最精确的分开,适合文本分析 项目学习2:词频统计 程序实现 词频统计核心代码 数据可视化 教材143页 1.什么是数据可视化? 数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。 2.可视化的作用? (1)快捷观察与追踪数据 (2)实时分析数据 (3)增强数据的解释力和吸引力 可视化的基本方法 1.有关时间趋势的可视化 随时间推移而变化的数据 可视化的基本方法 2.有关比例的可视化 一系列总和为1的比例数据 可视化的基本方法 3.有关关系的可视化 相互关联的数据 可视化的基本方法 4.有关差异的可视化 包含多种变量的数据 可视化的基本方法 5.有关空间关系的可视化 带有经纬度标签的空间数据 可视化的工具 工具: 大数据魔镜 (免费的大数据可视化分析工具) Gephi(动态和分层图的交互可视化与探测开源工具) Tableau(实时可视化分析) 编程语言: R (用于统计分析,图形表示和报告的编程语言和软件环境) Python 可视化工具库: D3.js (D3 是最流行的可视化库之一,可以创建实时交互网页) Highcharts (用纯JavaScript编写的一个图表库) Google Charts (为浏览器和移动设备定制,用于在web上可视化数据) 大数据典型应用p151-152 智能交通整合了物联网、大数据、云计算、人工智能等技术 实时提供道路交通、公路交通、停车场等信息。 检测、控制和管理道路交通 。 大数据典型应用p152 利用电子设备和网络技术进行商务活动 出租车轨迹可视化分析 项目学习3:文本数据分析———生成标签云 生成结果并分析(提取关键信息) 浙大附中.txt(UTF8格式) 校标.png(模板图片) #[0,10]区间内返回1000个均匀分布的样本 p135 p137 ... ...

~~ 您好,已阅读到文档的结尾了 ~~