(
课件网) 第五章 数据处理和可视化表达 5.2数据的采集 (第1课时) 一 、本章情况 学习目标 (1)了解大数据的概念,理解大数据的特征,知道大数据对日常生活的影响,明晰传统数据与大数据的区别; (2)了解数据采集的方法和工具,掌握数据的存储方式,理解对数据进行保护的意义; (3)知道数据预处理及分析,体验多种数据分析技术; (4)学会选用恰当的工具处理数据,学会总结和归纳数据分析的方法和步骤; (5)了解数据可视化两种呈现类型,学会选用恰当的工具可视化表达数据。 5.1认识大数据 5.2数据的采集 5.3数据的分析 5.4数据的可视化表达 教学内容 二、项目指导 交流分享 依据自己小组项目实施的实际情况,对于项目实施过程的进度、亮点、困难予以分享,交流。 1. 项目完成基本情况。 2.对所选定主题的大数据特征进行分析。 三、知识回顾 5.1 认识大数据 四、学习新知 思考 处理大数据需要哪些步骤? 如何获取大数据? 如何加工大数据? 如何表达大数据? 四、学习新知 5.2.1 数据的采集 数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。 采集数据首先要明确数据应用项目的需求,围绕选定的项目主题,制订数据采集的需求清单和内容大纲,再采用适当的方法和工具进行采集。 四、学习新知 1. 系统日志采集法 在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。 系统日志包括操作系统日志、应用程序日志和安全日志。 系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。 查看计算机的日志: 四、学习新知 1. 系统日志采集法 通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。 例如,安全管理信息系统就是以系统日志服务器采集原始日志数据,以日志记录文本文件实现日志数据的监控和保存,以数据库操作进行日志有效信息的管理工作。 某安全管理信息系统的日志: 四、学习新知 2. 网络数据采集法 网络数据采集是指通过网络爬虫或网站公开API (Application Programming Interface,应用程序接口)等方式从网站上获取数据信息。 网络爬虫从一个或若干初始网页的URL ( Uniform Resource Locator, 统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 四、学习新知 2. 网络数据采集法 新华网科技专栏,大国科技栏目的URL:http://www./tech/dgkj 通过URL访问这个网页,在网页中有其他网页的URL,这样就是获取这些网页的内容。 思考:能不能用程序自动获取这些网页的内容? 四、学习新知 2. 网络数据采集法 “网络数据采集法” 可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 可以进行网络数据采集的程序,常被称为“网络爬虫”。 使用Python程序实现网络数据采集,需要使用“扩展库”。 四、学习新知 2. 网络数据采集法 认识Python扩展库,常用的库: NumPy SciPy Pandas Matplotlib 运行“程序5-2-1 绘制正弦函数.py”,分析import语句的功能。 探究活动 使用扩展库中的模块: import module from module import name 观看视频:库模块的使用 四、学习新知 2. 网络数据采集法 打开程序文件“程序5-2-1 贴吧图片栏目图片下载.py”,检查扩展库、URL。运行程序,实现网络图片的采集。 探究活动 (1)打开程序文件“程序5-2-1 top250电影数据.py”,测试使用Python ... ...