中小学教育资源及组卷应用平台 《关联分析》作业: 一、选择题 1. 在关联规则挖掘中,以下哪个算法是用于发现频繁项集的? A. Apriori B. Kmeans C. PCA D. SVM 答案:A 解析:选项A正确。Apriori算法是一种经典的关联规则挖掘算法,用于发现数据集中频繁出现的项集。Kmeans是一种聚类算法,PCA是降维技术,SVM是支持向量机,它们与关联规则挖掘无直接关系。 2. 在关联规则中,“支持度”是指: A. 规则的置信度 B. 规则的强度 C. 项集在数据集中出现的频率 D. 项集的支持度和置信度的乘积 答案:C 解析:选项C正确。支持度是指某个项集(如商品组合)在所有交易记录中出现的频率。它衡量了项集在数据集中的重要性或流行程度。 3. 在关联规则挖掘中,如果一个规则的支持度很低,这通常意味着: A. 这个规则非常可靠 B. 这个规则适用于所有情况 C. 这个规则可能不太重要或不常见 D. 这个规则的置信度很高 答案:C 解析:选项C正确。如果一个规则的支持度很低,说明这个规则对应的项集在数据集中出现的频率较低,因此这个规则可能不太重要或不常见。 4. 在关联规则挖掘中,“提升度”大于1表示: A. 规则是负相关的 B. 规则是正相关的 C. 规则是无关的 D. 规则的置信度等于支持度 答案:B 解析:选项B正确。提升度(Lift)是度量关联规则质量的一个指标。当提升度大于1时,表示规则是正相关的,即前件的出现会增加后件出现的概率;当提升度小于1时,表示规则是负相关的;当提升度等于1时,表示规则是独立的。 5. 在关联规则挖掘中,以下哪个参数不是用来设置算法的最小支持度阈值的? A. min_support B. support C. confidence D. threshold 答案:C 解析:选项C正确。min_support、support和threshold都可以用来设置算法的最小支持度阈值,以控制发现的频繁项集的数量。而confidence是用来设置规则置信度的阈值,与支持度无直接关系。 二、填空题 6. 在关联规则挖掘中,_____用于衡量规则的可靠性。 答案:置信度 解析:置信度(Confidence)是衡量关联规则可靠性的一个重要指标。它表示在前件出现的情况下,后件也出现的概率。 7. 在关联规则挖掘中,_____用于度量项集在事务数据库中出现的频率。 答案:支持度 解析:支持度(Support)是度量项集在事务数据库中出现的频率的一个指标。它反映了项集在数据集中的流行程度或重要性。 8. 在关联规则挖掘中,_____用于度量规则的提升程度或有用性。 答案:提升度 解析:提升度(Lift)是度量关联规则提升程度或有用性的一个指标。它比较了规则的实际置信度与期望置信度之间的差异。 9. 在关联规则挖掘中,如果一个规则的_____为1,则表示该规则是独立的。 答案:提升度 解析:当提升度等于1时,表示规则的前件和后件之间是独立的,即前件的出现不会增加后件出现的概率。 10. 在关联规则挖掘中,_____算法通过迭代的方式寻找频繁项集。 答案:Apriori 解析:Apriori算法是一种经典的关联规则挖掘算法,它通过迭代的方式寻找频繁项集,并基于这些频繁项集生成关联规则。 11. 在关联规则挖掘中,_____用于控制发现的频繁项集的数量。 答案:最小支持度 解析:最小支持度(min_support)是一个阈值参数,用于控制发现的频繁项集的数量。只有当项集的支持度大于或等于这个阈值时,才会被认为是频繁项集。 12. 在关联规则挖掘中,_____用于控制生成的规则数量。 答案:最小置信度 解析:最小置信度(min_confidence)是一个阈值参数,用于控制生成的规则数量。只有当规则的置信度大于或等于这个阈值时,才会被认为是有效的关联规则。 简答题 1. 什么是数据关联分析? 数据关联分析是一种统计技术,用于发现大量数据集中的有趣关系。这些关系可以是两个或多个变量之间的相关性、因果关系 ... ...