
《数据分组》作业 一、选择题 1. 在 Python 的 Pandas 库中,`groupby()` 方法通常用于: A. 对数据集进行排序 B. 将数据集分割成多个子集 C. 根据一个或多个键对数据集进行分组 D. 删除数据集中的重复项 答案:C 解析:在 Pandas 中,`groupby()` 方法用于根据一个或多个键(可以是列名或列值)对数据集进行分组,以便对每个组应用聚合函数或进行其他操作。它不直接用于排序、分割数据集或删除重复项。 2. 在 R 语言中,使用 `split()` 函数可以将数据框分割成多个子集,这通常用于: A. 数据清洗 B. 数据可视化 C. 数据分组 D. 数据导入 答案:C 解析:在 R 语言中,`split()` 函数用于根据某个因素(如数据框中的一列)将数据框分割成多个子集,从而实现数据分组。这对于后续的分组分析和汇总非常有用。 3. 在 Excel 中,要创建数据的分组(如按月份分组销售数据),可以使用的功能是: A. 数据透视表 B. 条件格式 C. 数据验证 D. 排序和筛选 答案:A 解析:在 Excel 中,数据透视表是一个强大的工具,可以轻松地对数据进行分组、汇总和分析。通过将字段拖放到行、列或值区域,可以快速创建各种分组和汇总报告。 4. 在 SQL 中,`GROUP BY` 子句通常与哪个子句一起使用来对分组后的数据进行计算? A. `ORDER BY` B. `HAVING` C. `WHERE` D. `SELECT` 答案:D 解析:在 SQL 中,`GROUP BY` 子句用于根据一个或多个列对结果集进行分组,而 `SELECT` 子句则用于指定要返回的列。通常,`GROUP BY` 会与聚合函数(如 `SUM()`, `COUNT()`, `AVG()` 等)一起使用,以对每个分组进行计算。 5. 在 Pandas 中,如果要根据多列对 DataFrame 进行分组,并且希望在分组键中考虑多个级别的层次结构,应该使用: A. 单层索引 B. 多层索引(MultiIndex) C. 重置索引 D. 透视表 答案:B 解析:在 Pandas 中,当根据多列对 DataFrame 进行分组时,如果希望在分组键中考虑多个级别的层次结构,应该使用多层索引(MultiIndex)。这样,每个分组键都可以有一个以上的级别,从而更灵活地进行分组操作。 二、填空题 6. 在 Pandas 中,使用 `groupby()` 方法后,可以通过调用_____方法来计算每个组的平均值。 答案:mean 解析方法:在 Pandas 中,对数据进行分组后,可以使用诸如 `mean()`, `sum()`, `count()` 等方法来计算每个组的统计量。例如,`mean()` 方法会返回每个组的平均值。 7. 在 R 语言中,使用 `aggregate()` 函数对分组数据进行自定义汇总时,需要提供两个参数:一个是用于分组的变量,另一个是应用于每个组的_____。 答案:函数 解析方法:在 R 语言中,`aggregate()` 函数允许对分组数据应用自定义函数。第一个参数通常是用于分组的变量(如数据框中的一列),第二个参数则是应用于每个组的函数,该函数定义了如何对每个组的数据进行汇总或变换。 8. 在 Excel 中,使用 "_____" > "数据分析工具包" > "数据分析",可以选择不同的数据分析工具,包括描述性统计和回归分析。 答案:数据 解析方法:在 Excel 中,通过 "数据" > "数据分析工具包" > "数据分析",可以访问一系列预定义的数据分析工具,这些工具可以帮助用户执行各种统计分析任务。 9. 在 SQL 中,`GROUP BY` 子句后面可以跟一个或多个列名,用逗号分隔。如果要根据一列中的多个不同值进行分组,并计算每组的总数,可以使用聚合函数_____。 答案:COUNT 解析方法:在 SQL 中,`GROUP BY` 子句用于根据一列或多列的值对数据进行分组。结合聚合函数(如 `COUNT()`, `SUM()`, `AVG()` 等),可以对每个分组进行计算。例如,`COUNT()` 可以返回每个分组中的行数。 10. 在 Pandas 中,如果要对分组后的数据应用多个聚合操作,并将结果存储在一个新的 DataFrame 中,可以使用 ` ... ...
~~ 您好,已阅读到文档的结尾了 ~~