首页
高中信息技术课件、教案、试卷中心
用户登录
资料
搜索
ID: 13356558
5.2数据的采集 课件 2022—2023学年粤教版(2019)高中信息技术必修1(27张PPT)
日期:2024-11-28
科目:信息技术
类型:高中课件
查看:14次
大小:42949949B
来源:二一课件通
预览图
1/9
张
27张
,
必修
,
信息技术
,
高中
,
2019
,
教版
(
课件网
) 5.2 数据的采集 H01005001.0。 105 TT.11.00010 情景导入 制作反诈宣传册需要什么? 防疤电信网络非骗 防非保护自附产欢全 辆 宣传手册 不轻信 网缩广告+“购物送 3中奖 卖 电信作罪 小心谨慎 不轻信 不透露不汇 及时向公安机 诈端识别公式要主 + >>预防电信诈 国家反诈中心 、 数据采集的方法 大数据时代,我们如何获取大量的数据? 01 系统日志采集法 网络爬虫 数据采集的 02 网络数据采集法 方法与工具 网络公开API 03 (应用程序接口) 其他数据采集法 上、 数据采集的方法) 系统日志采集法 系统日志 系统日志采集 系统日志是记录系统中硬件、 在目标主机上安装一个小 软件和系统问题的信息文件。系统 程序,将目标主机的文本、应 用程序、数据库等日志信息有 日志包括操作系统日志、应用程序 选择地定向推送到日志服务器 日志和安全日志。 进行存储、监控和管理。 、 数据采集的方法 URL URL 网页 网络爬虫 URL URL 按照一定的规则自动 URL 网页 地抓取万维网信息的 URL 程序或者脚本,能够 URL 在网络之间游走把网 站上的信息收集回 URL 网页 来。分为通用爬虫和 URL 聚焦爬虫。 URL 待抓取URL列队 2 、 数据采集的方法 2.认识模块库 requests库 re库 (正则表达式) python的模块库,可以通过调用来 是Pythonl的内置模块库,通过匹 帮助我们实现自动爬取网页页面以 配字符串解析网页内容。 及模拟人类访问服务器,自动提交 网络请求。 数据采集的方法I 2.认识模块库 使用importi语句导入模块的语法: import module import requests import I re 使用from importi语句导入模块内指定方法的语法: from module import name from PIL import Image from PIL import 、 数据采集的方法 小组探究:思考网络爬虫采集数据的过程 步骤 购买商品过程 爬虫采集数据过程 代码实例 找到商店地址 确定目标网址 110 0011 84610 二 逛商店 抓取网页数据 00 10 三 选择看中的物品 解析网页内容 1019010011 111191111 四 购买 保存图片数据
~~ 您好,已阅读到文档的结尾了 ~~
立即下载
免费下载
(校网通专属)
登录下载Word版课件
同类资源
2023-2024学年浙江省绍兴市高一(下)期末信息技术试卷(含答案)(2024-10-28)
2023-2024学年新疆阿克苏地区拜城一中高一(上)期末信息技术试卷(含答案)(2024-10-28)
2023-2024学年四川省泸州市天宇中等职业技术学校高一(下)期中信息技术试卷(含答案)(2024-10-28)
2023-2024学年四川省内江市高一(下)期末信息技术试卷(含解析)(2024-10-28)
2023-2024学年湖南省长沙市湘麓医药中等职业技术学校高一(下)期中信息技术试卷(含答案)(2024-10-28)
上传课件兼职赚钱