课件编号19637198

第五章《数据处理和可视化表达》第2课时《数据的采集》 课件(共25张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

日期:2024-05-16 科目:信息技术 类型:高中课件 查看:63次 大小:2755314Byte 来源:二一课件通
预览图 1/9
第五,必修,信息技术,高中,2019,教版
  • cover
(课件网) 课程导入 项目:典型城市空气质量变化研究 认识大数据 数据的分析 数据的采集 数据的可视化表达 粤教版信息技术必修1《数据与计算》 什么是数据采集 什么是数据采集 数据采集是利用一种装置,从系统外部采集数据并输 入到系统内部的一个接口。(百度百科) 数据采集是指根据需求采用适当的方法和工具获取所 需要的数据。(课本描述) 确定数据需求 选择采集方法与工具 获取并保存数据 项目活动一:确定数据需求 项目:典型城市空气质量变化研究 组名 项目名称 项目需要的数据 怎么获取空气质量数据? 上网查 手机APP 天气预报 …… 数据采集方法和工具 数据采集的方法 传感器采集法 1 利用传感设备,检测、采集物理信息,并将其转换为电信号形 式表示的一种采集方法。 数据采集的方法 传感器采集法 1 利用传感设备,检测、采集物理信息,并将其转换为电信号形 式表示的一种采集方法。 系统日志采集法 2 利用系统中记录硬件、软件和系统问题的信息文件来采 集数据。有操作系统日志、应用程序日志、安全日志等。 如:通过Web日志,获取网站点击率。 3 网络数据采集法 网络数据采集法 随着互联网的日益普及和数字化媒体的崛起,网络 成为我们快速获取数据的重要渠道。 搜索引擎 搜索引擎是一种能为用户提供检索 服务,并将检索结果呈现给用户的系统。 项目活动二:体验搜索引擎 使用搜索引擎查询宣城市今天的空气质量指数,填写 在活动记录单上。 未来一周?过去一年? 网络数据采集———网络爬虫 网络爬虫,是按照一定的规则自动抓取互联网上内容的程序。 爬取特定内容的程序叫做聚焦爬虫。 搜索引擎这类爬取所有网页内容的叫做通用爬虫。 项目活动三:体验爬虫程序 打开学习资料活动3文件夹,运行程序,观察结果,填写表格 查询城市 查询结果 数据保存结果 网络数据采集———爬虫程序 导入扩展库 import 模块名 from 模块名 import 方法名 网络数据采集———爬虫程序 导入扩展库 自定义函数 抓取网页 网络数据采集———爬虫程序 导入扩展库 自定义函数 抓取网页 过滤数据 网络数据采集———爬虫程序 导入扩展库 自定义函数 抓取网页 过滤数据 输出/存储数据 网络数据采集———爬虫程序 导入扩展库 自定义函数 抓取网页 过滤数据 输出/存储数据 主函数 网络数据采集———爬虫软件 爬虫使用规范 爬虫使用起来很方便 可以快速从互联网上获取到大量数据 我们是否可以随意爬取想要的数据呢? 爬虫使用规范 遵守robots.txt协议 遵守相关法律法规 禁止: 恶意爬取 侵犯个人隐私 爬取信息用于不正当竞争 侵犯商业秘密 项目活动四:体验爬虫软件 使用后羿采集器采集选定典型城市历史空气质量指数。 课堂总结 课后思考 这些数据反映出怎样的空气质量变化呢? 怎么进一步分析得出具体的结论呢? ... ...

~~ 您好,已阅读到文档的结尾了 ~~