(
课件网) 通过看电影这个主题,学习如何采集到合适的数据,通过分析这些数据,帮助我们更好地决策。 第5课 电子表格数据的统计 项目:为ta定制一份观影报告,推荐3部电影 被推荐人:妈妈 推荐电影1:永不消逝的电波 推荐指数:★★★★★ 推荐理由: 爱看谍战片的你绝对不能错过这部致敬经典之作,更别说演艺形式是你最爱的舞剧,豆瓣评分高达9.4分哦!看看网友最优质的影评和评论的热词吧。 “阴森肃穆的舞台、明暗对比强烈的灯光、节奏紧张的音乐、线条优美的服装、双人舞的爱意缝绻、旗袍舞的婀娜多姿、特务的杀气腾腾,让人完全挪不开眼……” 被推荐人:好友奇多 推荐电影3:宝莲灯 推荐指数:★★★★ 推荐理由: 国产动画良心制作,1999年出品,古典传说+中国画风+明星声优+少年冒险故事+流行歌主题曲……基本上各种成功因素都有了。 “妈妈,我长大了!"张信哲的歌一响起,忍不住鼻酸。张信哲的声音和如此唯美的画面感觉特别相配,萤火虫把宝莲灯点得忽明忽暗的场景让我永生难忘,太美了…… 互联网公司为你推荐电影 为你推荐 Q:各种视频平台如何借助数据,为我们做推荐? APP推荐电影基本原理 分析用户 分析电影 侦探迷 演员控 画面控 二次元 数据类型2: 行为记录 如观看内容、 点赞、评论 观看时长 数据类型1: 基本信息 数据类型2: 日志信息:如点赞量、评论 数据类型1: 基本信息 将用户标签与影片标签用算法匹配后 为用户进行推荐 本节课目标 了解数据处理与应用的全流程 用影评数据生成一部电影的标签词云图 项目后续3节课 依据ta的喜好,采集几十部相关电影数据, 筛选出3部最适合电影,完成报告的撰写 APP推荐电影基本原理 数据处理基本流程 1 2 3 4 数据采集 APP能够直接获取到用户数据,我们需要借助爬虫采集 数据整理 删除掉缺失、重复、错误的数据 数据分析 提取有价值的信息 数据可视化 选择适当的方式图表进行呈现 Q:我们从哪里采集影评数据? 爬虫是什么?如何用爬虫采集数据? 网络爬虫是什么? 爬虫就是一段程序代码,帮助我们自动抓取网页内容 爬虫工作的起点叫做种子,其实就是一个网址,程序访问这个网址,按照设定的规则采集数据。 https://movie.douban.com/subject/26794435/ 任务1:数据采集+整理 1) 查看学生文件夹中的 《操作流程》,从豆瓣电影网站里选择一部电影,打开douban_conment.py修改程序中的电影编码和电影名称 2) 修改python代码,运行后采集短评数据 3) 查看excel文件采集的 评论,删除掉缺失,重复, 错误数据 任务1:数据采集+整理 #使用循环,分次爬取第个页面的短评数据 for i in range(0,page_count): #1.组装短评页面的网址 url=f'https://movie.douban.com/subject/{douban_id}/comments start={i*20}&limit=20&status=P&sort=new_score' #2.获取页面内容 print(url) 找到种子地址,编写程序 设定规则进行采集 任务1:数据采集+整理 是否存在缺失,重复,错 误数据,完成纠错? 豆瓣电影这个数据源,采 集到的数据较完整、准确。 任务2:数据分析+可视化 1)依据数据类型进行分析。统计短评数据中 每个词出现的次数,依据词频高低绘制词云图。 2)完成任务单,思考现有标签能否帮助我们了解电 影的特征,存在什么问题,可以如何优化? 项目 内容 姓名 分析的电影名称 短评词云图 现有标签能够帮助你了解这部电影 的特征吗?存在什么问题? 可以从数据采集、整理、分析、可视化中哪些环节解决这些问题?尝试提出1个解决方案。 豆瓣电影数据统计与分析任务单 分析结果与数据源、数据 有紧密关系。 分享时间 Q:如何通过短评数据得出词频? jieba模块帮忙完成文本分词:Python Jieba [输入文本]故宫的著名景点包括 ... ...