
中小学教育资源及组卷应用平台 2025普通高中信息技术学业水平考试 优化集训11 pandas数据处理 1.下列关于数据的说法错误的是( ) A.数据整理的目的是对数据进行检测和修正 B.数据处理的核心是数据,数据的质量不影响数据分析的结果 C.数据重复往往在多数据源进行合并时出现 D.不同格式的数据通过转换可以将其值按照统一标准进行表示 2.下列有关Hadoop计算平台的说法中,不正确的是 ( ) A.Hadoop计算平台是一个可运行于规模计算机集群上的分布式系统基础架构 B.Hadoop计算平台适用于对静态数据进行处理 C.Hadoop计算平台主要包括Common公共库、HDFS、HBase、MapReduce等模块 D.Hadoop计算平台也适用于对流数据的实时处理 3.下列数据不适合运用批处理计算的是( ) A.全校上一次考试的成绩统计 B.微博上一季的热词统计 C.根据路况实时更新导航路线 D.某商品价格过去一年的浮动情况 4.不能实现选取df对象前5行数据记录的语句是( ) A.df.head() B.df.head(5) C.df[0:5] D.df[5] 回答下列第5~7题。 5.某DataFrame对象df中包含“准考证号”“班级”“姓名”“文”“数学”…“总分”等10个数据列、多个数据行,能获取对象df第3个数据的“姓名”内容的语句有( ) ①df[2,'姓名'] ②df.at[2,'姓名'] ③df[2]['姓名'] ④df['姓名'][2] ⑤df.姓名[2] A.①②③ B.①②④ C.②④ D.②④⑤ 6.如第5题对象df,能够降序排列输出总分大于等于600分的学生数据的代码组合是( ) ①df=df.sort_values(″总分″,ascending=True) ②df=df.sort_values(″总分″,ascending=False) ③df=df[″总分″,>=600] ④df=df[df[″总分″]>=600] ⑤print(df) A.①③⑤ B.①④⑤ C.②③⑤ D.②④⑤ 7.如第5题对象df1,下列语句中,可以以班级为单位,统计出各班级“总分”的平均值的有( ) ①df.groupby('班级').mean() ②df.groupby('总分').mean() ③df.groupby('班级')['总分'].mean() ④df.groupby('班级').总分.mean() ⑤df.groupby('班级').describe() A.①②③④⑤ B.①②③⑤ C.①③④⑤ D.①②③ 8.根据交通路况实时更新导航线路的应用场景中,下列处理方式中合理的是( ) A.选用针对静态数据的批处理计算 B.选用针对流数据的流计算 C.选用针对图结构数据的图计算 D.用统计分析软件提供的丰富的统计算法进行数据分析 9.下列有关数据可视化方法的说法,错误的是( ) A.要分析相等时间间隔下数据的发展趋势,可采用折线图 B.要显示各部分数据在总数据中的大小和比例关系,可采用饼图 C.要探究若干数据系列中各数值之间的关系,可采用柱形图 D.要比较每个数据相对中心的数值变化,可采用雷达图 10.下列关于大数据应用的说法,错误的是( ) A.随着大数据在各行各业的应用,数据成为核心资产 B.云计算对大数据的分析应用无太大帮助 C.大数据在电子商务领域的应用,为商业的振兴起到了推动作用 D.智能交通可以使交通运输服务和管理智能化 11.文本数据处理的主要步骤包括: ①结果呈现 ②特征提取 ③分词 ④数据分析 ⑤文本数据获取 正确的顺序是( ) A.⑤②④①③ B.⑤③①④② C.⑤①③②④ D.⑤③②④① 12.有如下Python程序段。 import pandas as pd list=[['周欣怡','湖州',15,646],['王培新','杭州',16,598],['张佳明','杭州',16,609],['林逢春','嘉兴',15,547],['朱梁栋','湖州',16,588],['陈清瑞','嘉兴',15,571]] inf=pd.DataFrame(list,columns=['姓名','地区','年龄','总分']) print(inf) print('_' 20) print(inf.groupby('地区',as_index=True).mean()) 执行该程序段后,输出的结果是 (单选,填字母)。 13.小明从某网站上收集了2022年4月部分生产资料市场价格变动情况数据,数据集保存在“shuju.xlsx”中,格式如图a所示。 图 ... ...
~~ 您好,已阅读到文档的结尾了 ~~