专题02 算法与问题解决 【学习目标】 理解算法的基本概念和重要性:学生应能够解释算法的定义,并认识到算法在解决问题中的作用。 掌握算法的特征与要素:学生需要了解算法的五个基本特征(有穷性、可行性、确定性、输入输出),以及算法的三个核心要素(数据、运算、控制转移)。 学习不同的算法描述方法:学生应熟悉自然语言、流程图、伪代码和计算机程序设计语言等不同方式描述算法,并能根据实际问题选择适当的描述方法。【思维导图】 【知识梳理】 知识点一:数据整理 (1)数据缺失:最简单(忽略缺失值);常见(平均值、中间值、概率统计值) (2)数据重复:分析后合并或删除 (3)异常数据:可能是没用的噪声,也可能是重要数据。 (4)逻辑错误:属性值和实际值不符。 (5)数据格式不同:数据转换 知识点二:Excel 1.公式及函数 (1)公式必须以”=”开头 (2)公式及函数 SUM(a1,a2,…,an) 求和 AVERAGE(a1,a2,…,an) 求平均数 MIN(a1,a2,…,an) 求最小值 MAX(a1,a2,…,an) 求最大值 单元格引用 例:在E2单元格输入:=(C2-B2)/$A2+D$2,复制公式到G4单元格,公式变为: =(E4-D4)/$A4+F$2 常见错误提示 【题型精讲】 例1 1 2.排序(升序、降序) 选择区域:①选全部列②如果关键字是列A列B等,不选标题③避开合并单元格 3.筛选 ①文本筛选:通配符(?表示任意一个字符。*表示任意多个字符)、包含、结尾是、开头是 ②数字筛选:大于、小于、介于、自动筛选前10个(10/9/11/……个最大/最小的值) ③筛选最大前三项,筛选出的记录可能超过3项,并列项也会筛选出来 ④多条件筛选:选出女生中成绩最好的三个,需要筛选‘女生’,排序选前三个,顺序可反 4.图表 (1)数据标签:设置图表上对应的各系列数据是否显示数值 (2)选定数据区域解题方法 例2 用UltraEdit软件查看“2021高三加油!”的字符内码,部分界面如图所示。 ①根据图2中的X轴,确定数据区域A6:A9 ②根据图2的图例,确定数据区域C2:D2(如果图例是“系列1,系列2”,则不包括C2:D2) ③根据图2图表上对应的各系列的数据,确定数据区域C2:D9 ④通过对称(高平齐、长对正)确定数据区域A2 ⑤总区域为A2,A6:A9,C2:D2,C2:D9 (3)图表影响因素 图表会发生变化:①图表相关单元格数据发生变化②图表中的数据参加排序、筛选 图表不会发生变化:①修改单元格格式(特别是小数位数) 知识点三:大数据处理的基本思想和架构 分治思想:一个大问题分成多个小问题 静态数据:批处理计算 举例:3年内学生的高考成绩 Hadoop架构: ①HDFS:分布式文件系统 将大规模数据以文件的形式保存,适合部署在廉价的机器上。 应用:云盘、网盘的底层 ②Hbase:分布式数据库 建立在HDFS建立的基础上,采用基于列的存储方式,是谷歌BigTable的开源实现 Hbase:分布式数据库 ③MapReduce:分布式并行计算模型 流数据:流计算 举例:交通路况的实时更新 软件:Twitter 图数据:图计算 举例:社交网络、传染病的传播路径等 实时处理+批处理 软件:SummingBird 好处:缩短切换时间、减少系统开销、降低使用成本 知识点四:Pandas 1.常用模块 ①Numpy模块:Python中做科学计算的基础库; ②Scipy模块:增强了在高等数学、信号处理、图像处理、统计等方面的处理能力; ③Pandas模块:主要用于数据的处理和分析。 2.导入:import pandas as pd 3.数据结构:Series(一维数组:一列索引一列值) 属性:index(索引)、values(值) 将178改成188:s2[‘s02’]=188或s2[1]=188 4.数据结构:DataFrame(二维数组:一列索引多列值) (1)属性:index(索引)、values(值)、columns(列标题) (2)获取数值 获取第二行数据:df1[1:2] 获取‘性别’列数据:df1[‘性别’]或df1.性别 ... ...
~~ 您好,已阅读到文档的结尾了 ~~