课件编号19702200

1.3使用网络爬虫爬取网页数据 课件(共14张PPT)+教案 电子工业社版(2022)初中信息科技

日期:2024-06-04 科目:信息技术 类型:初中课件 查看:73次 大小:34511572Byte 来源:二一课件通
预览图 0
信息,初中,2022,社版,工业,电子
    1.3使用网页爬虫爬取网页数据教学设计 课题 使用网络爬虫爬取网页数据 单元 第一单元 学科 信息科技 年级 七年级下 教材 分析 本课选自《信息科技》(电子工业版)的第一章第三节的内容,教材由“认识网络爬虫”、“编程实现网络爬虫”、“熟悉网络爬虫的‘君子协议’”三部分内容组成。学生通过对本教材的学习深化网页的相关知识,具备一定的科学精神和科技伦理,提高创新能力,夯实信息社会责任,发挥信息科技课程的独特育人价值,为数字强国培养优秀接班人和建设者。 教学 目标 信息意识:具有主动探究问题、解决问题的意识。 2、计算思维:知道网络中信息编码、传输和呈现的原理。 3、数字化学习与创新:根据任务要求,编写程序实现网络爬虫。。 4、信息社会责任:掌握网络爬虫的“君子协议”,遵循网络社会的道德责任和行为准则。 重点 1、了解网络爬虫的概念与工作过程; 2、了解网络爬虫爬取数据的实质; 3、了解网络爬虫的“君子协议”—Robots协议概念。 难点 1、掌握mpython源程序代码; 2、掌握网络爬虫的“君子协议”规定和注意事项。 教学过程 教学环节 教师活动 学生活动 设计意图 导入新课 图文并茂的网页往往更能吸引人,不妨加入一些我国科技领域重大创新成果的图片来增强网页的趣味性与可读性,但是网络上的信息数据太庞杂,如何快速获取这些数据呢? 学生听教师引导生活中的案例,学生讨论,回答提问。 通过问题导入,引起情感共鸣,激发学习兴趣。 讲授新课 活动1:认识网络爬虫 1、什么是网络爬虫? 一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序,来实现对数据的自动化采集。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网络爬虫的工作原理 当你要去某个网站批量下载文章,如果单纯用浏览器的话,你得寻找对应文章,一个个点击下载按钮。 如果这个过程使用爬虫来处理,那么爬虫就会代替我们去服务器请求数据,然后爬虫帮我们去解析数据,按照我们设定好的规则批量下载文章,存储到特定文件中。 网络爬虫爬取数据的实质 网络爬虫爬取就是通过程序模拟浏览网页的行为,将HTML代码进行分析和过滤,实现对图片、文本等资源的获取。 百度并思考:网络爬虫在生活中有哪些应用? (1)舆情分析与监测。政府和企业通过爬虫技术自动采集论坛、博客、新闻媒体等网站的数据,利用数据挖掘方法如词频统计、文本情感计算、主题识别等来发掘舆情热点和跟踪目标话题。 (2)聚合平台。网络爬虫在聚合平台上也有广泛应用,例如返利网、慢慢买等。这些平台使用爬虫技术采集电商平台上的商品信息,并在自己的平台上展示,帮助用户比较价格和找到更优惠的选项。 (3)出行类软件。出行类软件如飞猪、携程、去哪儿等使用网络爬虫技术来不断访问交通出行的官方售票网站,刷新余票信息,以便用户能够快速找到并购买。(生活中常见) (4)市场调研和商业分析。网络爬虫用于抓取特定网站的数据,例如知乎答案、房产买卖信息、招聘网站的职位信息等,用于市场调研和商业分析。 深入思考:抢票软件的工作原理是什么? 大家正常情况下的网上购票,大家都需要手工操作登陆账号、选定乘车的车次和日期等步骤后才能进行购票,往往也是等到这一步完成后票就没有了。而使用抢票软件等于就是把账号交给抢票软件,购票者提供个人信息,上传至服务器数据库。一旦检测到余票就迅速锁定,用爬虫程序代替人的手工,自动地完成这一系列操作。 活动2:编程实现网络爬虫 编写程序前,加载网络爬虫程序需要的模块。 (1)在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话 ... ...

    ~~ 您好,已阅读到文档的结尾了 ~~