课件编号13356558

5.2数据的采集 课件 2022—2023学年粤教版(2019)高中信息技术必修1(27张PPT)

日期:2024-05-07 科目:信息技术 类型:高中课件 查看:28次 大小:42949949Byte 来源:二一课件通
预览图 1/9
27张,必修,信息技术,高中,2019,教版
  • cover
(课件网) 5.2 数据的采集 H01005001.0。 105 TT.11.00010 情景导入 制作反诈宣传册需要什么? 防疤电信网络非骗 防非保护自附产欢全 辆 宣传手册 不轻信 网缩广告+“购物送 3中奖 卖 电信作罪 小心谨慎 不轻信 不透露不汇 及时向公安机 诈端识别公式要主 + >>预防电信诈 国家反诈中心 、 数据采集的方法 大数据时代,我们如何获取大量的数据? 01 系统日志采集法 网络爬虫 数据采集的 02 网络数据采集法 方法与工具 网络公开API 03 (应用程序接口) 其他数据采集法 上、 数据采集的方法) 系统日志采集法 系统日志 系统日志采集 系统日志是记录系统中硬件、 在目标主机上安装一个小 软件和系统问题的信息文件。系统 程序,将目标主机的文本、应 用程序、数据库等日志信息有 日志包括操作系统日志、应用程序 选择地定向推送到日志服务器 日志和安全日志。 进行存储、监控和管理。 、 数据采集的方法 URL URL 网页 网络爬虫 URL URL 按照一定的规则自动 URL 网页 地抓取万维网信息的 URL 程序或者脚本,能够 URL 在网络之间游走把网 站上的信息收集回 URL 网页 来。分为通用爬虫和 URL 聚焦爬虫。 URL 待抓取URL列队 2 、 数据采集的方法 2.认识模块库 requests库 re库 (正则表达式) python的模块库,可以通过调用来 是Pythonl的内置模块库,通过匹 帮助我们实现自动爬取网页页面以 配字符串解析网页内容。 及模拟人类访问服务器,自动提交 网络请求。 数据采集的方法I 2.认识模块库 使用importi语句导入模块的语法: import module import requests import I re 使用from importi语句导入模块内指定方法的语法: from module import name from PIL import Image from PIL import 、 数据采集的方法 小组探究:思考网络爬虫采集数据的过程 步骤 购买商品过程 爬虫采集数据过程 代码实例 找到商店地址 确定目标网址 110 0011 84610 二 逛商店 抓取网页数据 00 10 三 选择看中的物品 解析网页内容 1019010011 111191111 四 购买 保存图片数据

~~ 您好,已阅读到文档的结尾了 ~~