(
课件网) 5.4.2数据可视化表达的工具 处理重复值 处理缺失值 处理异常值 系统日志采集法 网络数据采集法(网络爬虫) 其他数据采集法 数据分析的步骤 《数据与计算》P118-122 1.特点: 主要关注统计模型的可视化 Seaborn基于且高度依赖于Matplotlib Seaborn是matplotlib的强大的一个扩展。 2.例如:直方图 可以总结数据 也可以描绘数据的总体分布 一、Seaborn 1.特点: 可以实现交互式可视化 独立于Matplotlib 可以通过浏览器以数据驱动文档的风格呈现 2.绘图步骤 获取数据 构建画布figure() 添加图层,绘图line,circle,square,scatter,multiline等; 自定义视觉属性:参数color,legend 选择性展示折线数据,建立复选框激活显示,复选框(checkbox) 二、Bokeh 三、实践操作 【项目练习】运行“程序5-10-1 直方图(教材范例).py”,体验可视化工具Seaborn呈现直方图 。 #[0,0]图只显示直方图不显示核密度估计 #[0,1]图中rug = True表示要生成观测数值的小细条,#hist=False不生成直方图,只生成核密度估计。 #[1,0]图绘制一个填充核密度估计 #[1,1]图,既绘制直方图,又绘制和密度估计 sns.distplot(d, kde=False, color="b", ax=axes[0, 0]) sns.distplot(d, hist=False, rug=True, color="r", ax=axes[0, 1]) sns.distplot(d, hist=False, color="g", kde_kws={"shade": True}, ax=axes[1, 0]) sns.distplot(d, color="m", ax=axes[1, 1]) plt.show() 三、实践操作 【项目练习】运行“程序5-10-2 Bokeh示例(教材范例).py”,体验可视化工具Bokeh呈现正弦图。 N = 100 #np.linspace(start, stop, N)在起始值和终止值之间,返回均匀间隔的N个元素 x = np.linspace(0, 4*np.pi, N) y0 = np.sin(x) output_file('sinewave.html') #输出网页形式 #定义画布大小和图表标题 sine = figure(width=500, plot_height=500, title='Sine') #根据x、y坐标绘制圆点,如果要画成方形,则用sine.square() #size为大小,color为颜色,alpha为透明度 sine.circle(x, y0, size=10, color="navy", alpha=0.5) p = gridplot(`sine`, toolbar_location=None) #网格显示 show(p) 四、课堂小结 五、本章小结 数据采集 数据预处理 聚类分析 可视化呈现 分析报告 聚类分析 聚类分析 系统日志采集法 网络数据采集法 其他数据采集法 异常值处理 求最值、极差... 绘制直方图 趋势 比例 逻辑关系 空间关系 1. Seaborn基于且高度依赖于Matplotlib,可实现交互式可视化。( ) 2.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( ) A.在数据基础上倾向于全体数据而不是抽样数据 B.在分析方法上更注重相关分析而不是因果分析 C.在分析效果上更追究效率而不是绝对精确 D.在数据规模上强调相对数据而不是绝对数据 B B 五、课堂练习 3.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( ) A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达 4.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( ) A.数据清洗 B.异常数据处理 C.数据缺失处理 D.数据分类处理 5.大数据时代,数据应用的关键是( ) A. 教据收集 B.数据存储 C.数据分析 D.数据再利用 B A 五、课堂练习 C 6.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节 约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。请根据学生会开展该活动的几个步骤,排出最合理的顺序( )。 ①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议;②学生会成员去学校食堂收集数据 ... ...