(
课件网) 5.2.1 数据采集的方法和工具 学习目标 明确数据应用项目的需求 能制定数据采集的需求清单 知道数据采集的方法和工具 一、系统日志采集法———临时文件 1.概念:记录系统硬件、软件和系统问题的信息文件 查看日志的方法:控制面板 系统安全 管理工具 查看事件日志 2.内容 一、系统日志采集法———临时文件 1.概念:记录系统硬件、软件和系统问题的信息文件 2.内容:操作系统日志、应用程序日志、安全日志 3.作用: 监视系统中发生的事件 检查错误发生的原因 寻找受到攻击时攻击者留下的痕迹 二、 网络数据采集法 1.概念:通过网络爬虫、网络公开API(应用程序接口)等方法从网站上获取数据信息 在网址后加robots.txt,可以查看本网页是否能被爬取 例如:https://www./robots.txt 二、 网络数据采集法 2.网络爬虫的基本工作流程: 根据网页代码的标签名和属性,提取数据 控制器 解析器 存储器 二、 网络数据采集法 2.网络爬虫的基本工作流程如下: 首先,选取一部分精心挑选的种子URL; 然后,将这些URL放入待抓取URL队列; 接着,从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 最后,分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。 二、 网络数据采集法 2. 网络爬虫。例如:百度的爬虫Baiduspider 360的爬虫叫360Spider 百度spider 用户 其他网站 关键字 主要内容 网址 时间 索引 索引数据库 检索 保存 二、 网络数据采集法 3.Html Html:超文本标志语言的缩写,网页代码的基本组成部分 Html元素:决定网页的内容和结构,包含标签、注释等 标签:网页代码最基本的组成单位 <标签名 属性1 属性2 …>标签内容标签名> 开始标签 结束标签 属性格式:属性名称=属性值 浏览器网页 显示的内容 二、 网络数据采集法 3.Html标签 <标签名 属性1 属性2 …>标签内容标签名> 开始标签 结束标签 浏览器网页 显示的内容
我有一双蓝色的眼睛
我有一双蓝色的眼睛
属性格式:属性名称=属性值 二、 网络数据采集法 3.Html标签 查看网页代码的方法: 例如: 鼠标指向需爬虫数据 右击 审查元素 二、 网络数据采集法 3.Html标签 <标签名 属性1 属性2 …>标签内容标签名> 开始标签 结束标签 浏览器网页 显示的内容 属性格式:属性名称=属性值 span 标签名 class 属性 二、 网络数据采集法 4.扩展库 导入模块 import module 导入指定模块的指定函数 from module import name 导入模块(函数)并新名字替代 import module as 新名字(首字母) 模块名 语句———《数据与计算》P106 语句作用 import numpy as np import matplotlib.pyplot as plt from pylab import * 引入numpy库模块,用np替代 引入matplotlib库模块中的pyplot方法,用plt替代 引入pylab库模块中的所有方法 函数名 二、 网络数据采集法 5.网络爬虫的具体案例 all_title = soup.find_all('span', class_="title") for j in all_title: soup_title = bs4.BeautifulSoup(str(j), "html.parser", ) title.append(soup_title.span.string) #把爬取的数据添加并存储到title #爬取title并赋值给all_title #爬取title并赋值给soup_title 三、 其他数据采集法 1.概念 传感器等特定接口采集数据传输到数据库管理系统 四、 课堂小结 五、 课堂练习 1.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。 A. URL B. WWW C. HTML D. XML 2.利用Python采集网络数据时,导入 ... ...