ID: 10552814

第3单元第1节《爬取网络信息》课件（20张PPT）+教案

日期：2026-02-02 科目：信息技术类型：初中教案查看：22次大小：5048495B 来源：二一课件通

预览图 0 张

单元,1节,爬取网络信息,课件,20张,PPT

(课件网) 爬取网络信息川教版九年级上新知导入新学期，欢欢的老师向欢欢推荐了很多的课外阅读书目，但是欢欢在浏览器上直接搜索得出的信息过于的杂乱繁多，欢欢只好向老师求助。新知导入我有一个好办法。可以先用搜索引擎找到一个书目介绍网页，再用Python编写一个小程序，快速从这个网页上获取书籍的各种信息。 Python太强大了，可是我们应该怎么做呢？接下来，我们就一步步的来完成这个任务。我们先来分析一下这个任务，并梳理出实现的方法书名好评数/个价格/元水浒传 56082 26 《水浒传》是中国温煦时尚收不百花章回体小说，开创了中国白话长篇小说的先河，与《红楼梦》《三国安逸》《西游记》被合称为“中国古典文学四大名著…… 新知讲解一、明确任务老师，搜索出来的网站好丰富。网上类似的网站很多，我给你推荐一个网页“好书推荐”。网址是Ttp://ocalho /haoshu bhm".你可以用程序把这个网页的信息获取下来，对信息进行筛选和整理，并且保存下来。还可以进行简单的处理，最后得到你想要的信息。嗯。我明白了！我们要做一个表格来存储书籍的各种信息新知讲解接下来，分析任务要达到的目标我们按照以下流程进行： 1、搜索满足需求的网站； 2、编写程序从网页获取信息； 3、筛选出所需信息 4、将信息转化成表格的格式； 5、保存信息； 6、使用/分析信息。以上流程又可以进一步概括为获取信息、处理信息、保存信息、使用/分析信息等步骤新知讲解用Python编写爬虫软件访问网页获取网页信息筛选出所需信息调整所需信息格式保存需要的信息分析信息获取信息处理信息保存信息使用/分析信息新知讲解二、实现方法根据刚才的任务分析图，我们需要一些相关知识的辅助才能更好的完成任务如下表所示：所属步骤流程说明所需知识、方法获取信息访问网页、获取网页内容 requests模块的使用方法处理信息筛选信息、整理信息使用BeautifulSoup模块调用lxml解析器清除不需要的html内容保存信息保存信息至文件文件保存，写操作使用/分析信息根据需求使用、分析信息用Excel排序，或使用pandas模块排序表中的知识与方法是我们编写好爬虫程序的基础，表中列举的requests模块、BeautifulSoup模块请提前安装。只要掌握了这些知识，就可以编写出符合我们需求的爬虫程序。新知讲解 requests模块 Requests模块是一个用于网络请求的模块，主要用来模拟浏览器发请求。类似的模块有很多，但是与requests模块相比较复杂得多。 BeautifulSoup模块 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。新知讲解三、Python爬虫访问网页编写程序，让程序访问网络并获取我们需要的信息，这样的程序我们叫它“网络爬虫”。接下来我们就进行编写网络爬虫具体的操作。什么是网络爬虫？新知讲解首先，从浏览器中打开“好书推荐”的网页，网页出现了很多的搜索结果，包括每本书的书籍名、内容简介、好评数、作者、价格等信息。如下图：而后，在页面上点击右键，选择“查看页面源代码”，这些源代码就是一些纯文本。有如...,...,...,

...

这些文本，它们叫Html标签，用来控制页面文本或者图片在网页中的显示。如右图：新知讲解新知讲解接着使用requests模块的ger函数，可获取以上页面的源代码。获取“好书推荐”页面信息并显示的完整代码如下： import requests #引入Python中的网络访问库requests res=requests.get( http://localhost/haoshu.html’) #使用requests模块的get函数 ... ...

~~ 您好，已阅读到文档的结尾了 ~~

立即下载

免费下载（校网通专属）

登录下载Word版课件

第3单元第1节《爬取网络信息》课件（20张PPT）+教案

同类资源