(
课件网) 5.2.2数据的存储与保护 数据的存储 一、本地内部存储 本地电脑硬盘 存储卡 光盘 数据存储服务器 数据的存储 二、第三方云存储 数据的存储 二、第三方云存储 供应商 用户 管理 运营 维护 访问权限 存储空间 存储数据 数据的存储 数据的存储方式 数据的保护 数据的安全隐患 数据保护 刻不容缓 数据的保护 数据安全保护技术 1、安装杀毒软件和防火墙 数据的保护 数据安全保护技术 2、拷贝、备份、复制、镜像、持续备份 数据的保护 数据安全保护技术 2、拷贝、备份、复制、镜像、持续备份 1、安装杀毒软件和防火墙 3、加密:对称式加密 非对称式加密 数据的保护 数据的隐私保护 大数据时代,信息传播的速度更快,范围更大 数据的保护 数据的隐私保护 数据的保护 数据的隐私保护 爬虫数据下载 爬虫数据下载 下载图片: open(文件名, 模式) 模式:只读(r),写入(w),追加(+)等。 这个参数是非强制的,默认文件访问模式为只读(r)。为wb,是以二进制格式打开一个文件只用于写入。 如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。 response.content。获得response对象的二进制形式。 爬虫数据下载 爬虫小结 request.get(url,headers=headers) 模拟发出请求 获得回应 取出html BS4梳理 BeautifulSoup(html,’lxml’) 查找同类 soup.find_all(“标记”,”属性”=“”) 爬内容: item.find (“标记”,”属性”=“”).get_text() 爬属性值: <标记 属性1=属性值 属性2=属性值 ... ... >内容标记> item.find (“标记”,”属性”=“”).attrs[“属性”] rsp.text 网址 用户代理 for循环 爬虫数据下载 把爬到的数据存入Excel(openpyxl库) import openpyxl wb = openpyxl.Workbook() 实例化一个工作簿 ws = wb.active 激活的工作表 ws.title = “电影top250" 设置工作表名 ws.append([“序号”,“片名”,“地址"]) 追加表头 wb.save(“movie.xlsx") 保存工作簿 列表 ws.append((sn,name,url)) 爬虫数据下载 完整参考代码: 拓展: 如何爬取连续的多个网页? 爬虫数据下载 有人说爬虫简单 有人说爬虫简单,于是我学了简单的爬虫。 为了解析网页学了HTML: 为了存储数据并理解原理学了MySQL和MongoDB; 为了构建增量和分布式爬虫学了redis; 为了解决网页加密与混淆学了JavaScript; 为了优化开发效率和处理滑动验证码学了selenium和pyppeteer; 为了处理数字验证码学了卷积神经网络; 为了爬取的数据更有价值学了numpy、pandas和sklearn; 为了更直观的理解数据学了matplotlib和altair; 为了爬取手机APP解决反编译我学了…… 学学学……学个屁! 看到这个的留言,先心疼他三秒钟,这或许是我见到总结最到位的Python爬虫从入门到精通的心路历程! ... ...