(
课件网) 去哪儿旅游? ———数据的采集 必修一《数据与计算》 第五章 数据处理和可视化表达 长 安 北京 中国是一个地域辽阔的,拥有丰富的旅游资源。从南到北,从东到西,都有不同的自然景观和人文景观。同时各具特色的美味佳肴更是让你流连忘返。 探 究 数据的来源广泛(主要指互联网和物联网)、类型丰富、规模巨大。采集数据首先要明确数据应用项目的需求,围绕选定的项目主体,制定数据采集的需求清单和内容大纲,再采用适当的方法和工具进行采集。 数据的采集 对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。 其他数据采集法 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 网络数据采集法 系统日志包括操作日志、应用程序和安全日志。通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。 系统日志采集法 一、数据采集的方法 任务一:体验系统日志采集 ”去哪儿旅游“———数据的采集 探 究 数据的采集———旅游数据网络爬取 ”去哪儿旅游“———数据的采集 任务二:采集旅游景点数据 探 究 网络数据的采集———爬虫 ”去哪儿旅游“———数据的采集 电影《孤注一掷》片段中提到“爬虫” 探 究 数据的采集———旅游数据网络爬取 ”去哪儿旅游“———数据的采集 在众多的数据采集工具中,Python以其简洁、开源和包容的特性在数据采集和分析领域独树一帜。由于Python可以安装第三方扩展库来扩展功能,因此使用Python进行网络数据采集和分析显得简单易用。 探 究 数据的采集———调用第三方扩展库 ”去哪儿旅游“———数据的采集 import module 关键字 模块名 from module import name 关键字 模块名 关键字 方法名 form import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。 在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。 探 究 数据的采集———调用第三方扩展库 ”去哪儿旅游“———数据的采集 库名 作用 requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。 pyquery 是强大而又灵活的网页解析库 time 是最基础的时间处理库 pandas 是一个强大的分析结构化数据的工具集。用于数据挖掘和数据分析,同时也提供数据清洗功能。 scipy 是一种专用于科学计算中常见问题的工具箱。如插值、积分、优化、图像处理、统计、特殊函数等。 任务三:安装第三方库 探 究 二、数据的存储 ”去哪儿旅游“———数据的采集 存储数据主要有两种方式:本地存储和第三方公共或私有云端存储 本地电脑硬盘 存储卡 光盘 数据存储服务器 私有云 公共云 混合云 对于用户而言,无须关注云存储系统的具体运行,仅需获取存储空间,把自己的数据存储进去。 探 究 三、数据的保护 ”去哪儿旅游“———数据的采集 威胁数据安全因素 硬盘损坏 操作失误 黑客入侵 感染病毒 自然灾害 磁盘阵列 防火墙 杀毒软件 异地容灾 数据备份 主动防护 提高数据安全 加密/校验 MD5\CRC\SHA-1校验方法 校验是为了保证数据完整性 加密是为了保证数据保密性 数据安全保护技术 拷贝 备份 复制 镜像 持续备份 探 究 三、数据的保护 ”去哪儿旅游“———数据的采集 数据隐私保护 数据的隐私保护,形势越发严峻。 探 究 三、数据的保护 ”去哪儿旅游“———数据的 ... ...