ID: 11467290

粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法课件（17张PPT）

日期：2026-03-20 科目：信息技术类型：高中课件查看：82次大小：1066995B 来源：二一课件通

预览图 1/7 张

5.2-1,17张,课件,方法,工具,数据采集

(课件网) 5.2.1 数据采集的方法和工具学习目标明确数据应用项目的需求能制定数据采集的需求清单知道数据采集的方法和工具一、系统日志采集法———临时文件 1.概念：记录系统硬件、软件和系统问题的信息文件查看日志的方法：控制面板系统安全管理工具查看事件日志 2.内容一、系统日志采集法———临时文件 1.概念：记录系统硬件、软件和系统问题的信息文件 2.内容：操作系统日志、应用程序日志、安全日志 3.作用：监视系统中发生的事件检查错误发生的原因寻找受到攻击时攻击者留下的痕迹二、网络数据采集法 1.概念：通过网络爬虫、网络公开API（应用程序接口）等方法从网站上获取数据信息在网址后加robots.txt，可以查看本网页是否能被爬取例如：https://www./robots.txt 二、网络数据采集法 2.网络爬虫的基本工作流程：根据网页代码的标签名和属性，提取数据控制器解析器存储器二、网络数据采集法 2.网络爬虫的基本工作流程如下：首先，选取一部分精心挑选的种子URL；然后，将这些URL放入待抓取URL队列；接着，从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。最后，分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。二、网络数据采集法 2. 网络爬虫。例如：百度的爬虫Baiduspider 360的爬虫叫360Spider 百度spider 用户其他网站关键字主要内容网址时间索引索引数据库检索保存二、网络数据采集法 3.Html Html:超文本标志语言的缩写，网页代码的基本组成部分 Html元素：决定网页的内容和结构，包含标签、注释等标签：网页代码最基本的组成单位 <标签名属性1 属性2 …>标签内容开始标签结束标签属性格式：属性名称=属性值浏览器网页显示的内容二、网络数据采集法 3.Html标签 <标签名属性1 属性2 …>标签内容开始标签结束标签浏览器网页显示的内容

我有一双蓝色的眼睛

属性格式：属性名称=属性值二、网络数据采集法 3.Html标签查看网页代码的方法：例如：鼠标指向需爬虫数据右击审查元素二、网络数据采集法 3.Html标签 <标签名属性1 属性2 …>标签内容开始标签结束标签浏览器网页显示的内容属性格式：属性名称=属性值 span 标签名 class 属性二、网络数据采集法 4.扩展库导入模块 import module 导入指定模块的指定函数 from module import name 导入模块（函数）并新名字替代 import module as 新名字（首字母）模块名语句———《数据与计算》P106 语句作用 import numpy as np import matplotlib.pyplot as plt from pylab import * 引入numpy库模块，用np替代引入matplotlib库模块中的pyplot方法，用plt替代引入pylab库模块中的所有方法函数名二、网络数据采集法 5.网络爬虫的具体案例 all_title = soup.find_all('span', class_="title") for j in all_title: soup_title = bs4.BeautifulSoup(str(j), "html.parser", ) title.append(soup_title.span.string) #把爬取的数据添加并存储到title #爬取title并赋值给all_title #爬取title并赋值给soup_title 三、其他数据采集法 1.概念传感器等特定接口采集数据传输到数据库管理系统四、课堂小结五、课堂练习 1.网络数据采集法，主要通过网络爬虫或网站公开API的方式获取，网络爬虫从网页的( )开始获取。 A. URL B. WWW C. HTML D. XML 2.利用Python采集网络数据时，导入 ... ...

~~ 您好，已阅读到文档的结尾了 ~~

立即下载

免费下载（校网通专属）

登录下载Word版课件

粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法 课件（17张PPT）

同类资源

粤教版（2019）高中信息技术必修一数据与计算 5.2-1数据采集的工具和方法课件（17张PPT）