ID: 10552814

第3单元第1节《爬取网络信息》课件(20张PPT)+教案

日期:2026-02-02 科目:信息技术 类型:初中教案 查看:22次 大小:5048495B 来源:二一课件通
预览图 0
单元,1节,爬取网络信息,课件,20张,PPT
    (课件网) 爬取网络信息 川教版 九年级上 新知导入 新学期,欢欢的老师向欢欢推荐了很多的课外阅读书目,但是欢欢在浏览器上直接搜索得出的信息过于的杂乱繁多,欢欢只好向老师求助。 新知导入 我有一个好办法。可以先用搜索引擎找到一个书目介绍网页,再用Python编写一个小程序,快速从这个网页上获取书籍的各种信息。 Python太强大了,可是我们应该怎么做呢? 接下来,我们就一步步的来完成这个任务。我们先来分析一下这个任务,并梳理出实现的方法 书名 好评数/个 价格/元 水浒传 56082 26 《水浒传》是中国温煦时尚收不百花章回体小说,开创了中国白话长篇小说的先河,与《红楼梦》《三国安逸》《西游记》被合称为“中国古典文学四大名著…… 新知讲解 一、明确任务 老师,搜索出来的网站好丰富。 网上类似的网站很多,我给你推荐一个网页“好书推荐”。网址是Ttp://ocalho /haoshu bhm".你可以用程序把这个网页的信息获取下来,对信息进行筛选和整理,并且保存下来。还可以进行简单的处理,最后得到你想要的信息。 嗯。我明白了!我们要做一个表格来存储书籍的各种信息 新知讲解 接下来,分析任务要达到的目标 我们按照以下流程进行: 1、搜索满足需求的网站; 2、编写程序从网页获取信息; 3、筛选出所需信息 4、将信息转化成表格的格式; 5、保存信息; 6、使用/分析信息。 以上流程又可以进一步概括为获取信息、处理信息、保存信息、使用/分析信息等步骤 新知讲解 用Python编写爬虫软件 访问网页 获取网页信息 筛选出所需信息 调整所需信息格式 保存需要的信息 分析信息 获取信息 处理信息 保存信息 使用/分析信息 新知讲解 二、实现方法 根据刚才的任务分析图,我们需要一些相关知识的辅助才能更好的完成任务如下表所示: 所属步骤 流程说明 所需知识、方法 获取信息 访问网页、获取网页内容 requests模块的使用方法 处理信息 筛选信息、整理信息 使用BeautifulSoup模块调用lxml解析器清除不需要的html内容 保存信息 保存信息至文件 文件保存,写操作 使用/分析信息 根据需求使用、分析信息 用Excel排序,或使用pandas模块排序 表中的知识与方法是我们编写好爬虫程序的基础,表中列举的requests模块、BeautifulSoup模块请提前安装。只要掌握了这些知识,就可以编写出符合我们需求的爬虫程序。 新知讲解 requests模块 Requests模块是一个用于网络请求的模块,主要用来模拟浏览器发请求。类似的模块有很多,但是与requests模块相比较复杂得多。 BeautifulSoup模块 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。 新知讲解 三、Python爬虫访问网页 编写程序,让程序访问网络并获取我们需要的信息,这样的程序我们叫它“网络爬虫”。接下来我们就进行编写网络爬虫具体的操作。 什么是网络爬虫? 新知讲解 首先,从浏览器中打开“好书推荐”的网页,网页出现了很多的搜索结果,包括每本书的书籍名、内容简介、好评数、作者、价格等信息。如下图: 而后, 在页面上点击右键,选择“查看页面源代码”,这些源代码就是一些纯文本。有如...,...,...,
    ...
    这些文本,它们叫Html标签,用来控制页面文本或者图片在网页中的显示。如右图: 新知讲解 新知讲解 接着使用requests模块的ger函数,可获取以上页面的源代码。 获取“好书推荐”页面信息并显示的完整代码如下: import requests #引入Python中的网络访问库requests res=requests.get( http://localhost/haoshu.html’) #使用requests模块的get函数 ... ...

    ~~ 您好,已阅读到文档的结尾了 ~~