课时3 利用Pandas模块处理数据 课时目标 1.掌握Pandas模块的两种数据结构Series和DataFrame。2.学习使用Pandas模块对数据进行编辑、计算、统计、分析。3.会使用Python进行简单数据处理,并能从其中提取有用信息形成结论。 1.常用的Python扩展模块有Numpy、Scipy、Pandas和Matplotlib等,Pandas模块主要用于数据的处理和分析。 2.Python中引入Pandas模块的方法:import pandas as pd,pd是用户为导入模块取的别名。 3.pandas提供了Series和DataFrame两种数据结构。 (1)Series(系列) ①Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数,数据可以是不同类型的元素。列表、字典等可以用来创建Series数据结构。 ②Series对象属性 属性 说明 index Series的下标索引,其值默认是从0起递增的整数,也可以指定为字符串型 values 存放Series值的一个数组 (2)DataFrame(数据框) ①DataFrame是一种二维的数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。 创建DataFrame对象的方法很多,通常用一个相等长度的列表或字典来创建。 ②DataFrame常用对象属性 属性 说明 index DataFrame的行索引 columns 存放各列的标题 values 存放二维数据的值 T 行列转置 4.数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。 5.matplotlib绘图 (1)matplotlib是一个绘图库,使用其中的pyplot子库提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。 (2)引入matplotlib的pyplot子库的方法为:import matplotlib.pyplot as plt。 6.可视化的作用 快捷观察与追踪数据、实时分析数据、增强数据的解释力与吸引力等。 7.数据以可视化方式展现出来,用户可以通过直观、交互的方式浏览和观察数据,发现数据中隐藏的特征、关系和模式。如“百度地图”“百度指数”“航班飞行实时跟踪地图”等。 8.可视化的工具 (1)常见的数据分析中一般包含创建可视化图表功能,主要用于数据可视化的工具有大数据魔镜、Gephi、Tableanu等。 (2)使用Python、R等计算机语言编写程序实现数据的可视化。 (3)可视化工具库,如基于JavaScript的D3.js、Highcharts、GooleCharts等,基于Python的matplotlib等。 9.可视化的典型案例 数据以可视化方式展现出来,用户可以通过直观、交互的方式浏览和观察数据,发现数据中隐藏的特征、关系和模式,如“风、气象、海洋状况的全球地图”、“百度地图”、“百度指数”、“编程语言之间的影响力关系图”、“航班飞行实时跟踪地图”、“微博热词趋势图”等。 重难点剖析 1.Pandas模块中的Series对象 (1)创建Series import pandas as pd s1=pd.Series([1,2,3,4]) s2=pd.Series([1,2,3,4],index=["a","b","c","d"]) (2)Series对象的检索和修改 输出索引值为0的值:print(s1[0]) 输出索引值为"b"的值:print(s2["b"]) 输出values小于3的值:print(s1[s1<3]) 修改索引值为1的值为10:s1[1]=10 2.Pandas模块中DataFrame对象 (1)创建DataFrame对象 ①使用一个相等长度的列表或字典创建DataFrame对象。 如x=pd.DataFrame({"x1":[1,2,3,4],"x2":[5,6,7,8],"x3":[9,10,11,12]}) ②导入二维数据文件创建DataFrame对象。 pd.read_excel(filename) #从Excel文件导入数据 pd.read_csv(filename) #从CSV文件导入数据 ③DataFrame对象导出到二维数据文件 df.to_excel(filename) #导出数据到Excel文件 df.to_csv(filename) #导出数据到CSV文件 (2)查看DataFrame对象 通过index、columns、values属性可以查看DataFrame对象的行索引、列索引及数据,如:df.index、df.columns、df.values。 查看数据列:通过 ... ...
~~ 您好,已阅读到文档的结尾了 ~~