
2024 年河北省职业院校技能大赛 大数据应用与服务(中职组) 赛项样题 近年来随着社会经济的快速发展,百姓生活水平的不断提高,外 出旅游成为很多人生活的热门选择,如何促进旅游业的发展成为各级 政府高度重视的工作。为了更好地统筹管理城市的旅游资源,某省的 旅游管理部门采集了本省若干城市的酒店经营数据和用户评论数据, 其中酒店经营数据包括日期、城市、酒店名称、酒店星级、酒店当天 预定房间数、酒店当天入住客户数、酒店当天最高房价和酒店当天最 低房价等字段,这些数据保存到文件 hotel.csv 中。用户评论数据包 括日期、城市、酒店名称、住客评分、评论内容等字段,这些数据保 存到文件 comments.csv 中。 你作为技术人员,需要通过数据采集清洗、数据标注、数据分析、 数据可视化、业务分析等步骤对酒店经营数据和用户评论数据进行处 理,从而为政府制定旅游发展的政策提供决策依据。请按照下面的要 求完成相关任务。 本任务需要使用 root 用户完成相关配置,安装 Hadoop 需要配 1 置前置环境。命令中要求使用绝对路径,具体要求如下: ( 1 ) 从 Master 中 的 /opt/software 目 录 下 将 文 件 hadoop-3.1.3.tar.gz 、 jdk-8u191-linux-x64.tar.gz 安 装 包 解 压 到 /opt/module 路径中(若路径不存在,则需新建),将命令和结果复制 粘贴至对应报告中; (2)修改 Master 中/etc/profile 文件,设置 JDK 环境变量并使 其生效,配置完毕后在 Master 节点分别执行“java -version”和“ javac” 命令,将命令和结果复制粘贴至对应报告中; (3)将三个节点分别命名为 master、slave1、slave2,并做免密 登录,用 scp 命令并使用绝对路径从 Master 复制 JDK 解压后的安 装文件到 slave1、slave2 节点(若路径不存在,则需新建),并配置 slave1、slave2 相关环境变量,将命令和结果复制粘贴至对应报告中; (4)在 Master 将 Hadoop 解压到/opt/module(若路径不存在, 则需新建)目录下,并将解压包分发至 slave1、slave2 中,其中master、 slave1、slave2 节点均作为 datanode,配置好相关环境,初始化 Hadoop 环境 namenode,将命令和结果复制粘贴至对应报告中; (5)启动 Hadoop 集群(包括 hdfs 和 yarn),使用 jps 命令 查看 Master 节点与 slave1 节点的 Java 进程,将命令和结果复制粘 贴至对应报告中。 本任务需要使用 root 用户完成相关配置,已安装 Hadoop 及需 要配置前置环境,具体要求如下: 2 1) 从 Master 中 的 /opt/software 目 录 下 将 文 件 apache-hive-3.1.2-bin.tar.gz、mysql-connector-java-5.1.37.jar 安装包解 压到/opt/module 目录下,将命令和结果复制粘贴至对应报告中。 2)设置 Hive 环境变量,并使环境变量生效,执行命令 hive --version 将命令和结果复制粘贴至对应报告中。 3)完成相关配置并添加所依赖包,将 MySQL 数据库作为 Hive 元数据库。初始化 Hive 元数据,并通过 schematool 相关命令执行 初始化,将命令和结果复制粘贴至对应报告中。 本任务在 MySQL 中创建表 t_comment 和表 t_hotel,并将用户 评 论数据 comments.csv 和酒店经营数据 hotel.csv 分别导入到表 t_comment 和表 t_hotel 中。 具体要求如下: 1、创建用户评论表 t_comment,表 t_comment 的字段定义如 下: 字段 类型 说明 备注 comment_date date 日期 city varchar 城市 hotel_name varchar 酒店名称 score double 住客评分 content varchar 评论内容 2、在 MySQL 中将 comments.csv 的数据导入表 t_comment。 3、创建酒店经营数据表 t_hotel,表 t_hotel 的字段定义如下: 字段 类型 说明 备注 current_date date 日期 city varchar 城市 3 hotel_name varchar 酒店名称 hotel_star varchar 酒店星 ... ...
~~ 您好,已阅读到文档的结尾了 ~~