ID: 21418667

4.2大数据处理:文本数据处理 课件(共33张PPT)-2024-2025学年《信息技术》高中·必修 1 数据与计算(浙教版)

日期:2024-10-17 科目:信息技术 类型:高中课件 查看:12次 大小:6348929B 来源:二一课件通
预览图 1/12
数据处理,计算,数据,必修,高中,学年
  • cover
(课件网) 4.2大数据处理:文本数据处理 pandas模块 处理数据 matplotlib 模块绘图 Python 分析数据 编程处理数据的基本过程 一、 利用pandas模块处理数据: 基于numpy实现,主要用于数据的处理与分析 视频名称:全国各省的人均可支配收入排名TOP15 视频引之:哔哩哔哩 1 Series:一维的数组结构 2 DataFrame:二维的数据结构 import pandas as pd #导入模块,别名为“pd” pd.xxxx 如: pd.DateFrame import pandas pandas.xxxx 如: pandas.Series 一、 利用pandas模块处理数据 Series Series:一维的数据结构,包含一个数组的数据(Values)和一个与数据关联的索引(index),索引值默认从0起递增。 例:通过列表创建Series对象s1: pd.Series(列表) import pandas as pd s1=pd.Series([166,178,180]) print(s1) Series import pandas as pd data = {"i1":1,"i2":2,"i3":3,"i4":4} s3=pd. Series(data) print(s3) i1 1 i2 2 i3 3 i4 4 左列:index 右列:values Series 通过字典创建 思考与实践 龙龙记录了家庭一段时间的流水,请你创建一个Series数据结构,输出如图1所示的家庭某天的消费情况。 import pandas as pd xf=[12,68.5,105] s=pd.Series( ) print(s) 早餐 12 水果 68.5 买菜 105 xf,index=[‘早餐’,’水果’,’买菜’] 图1 Series的访问与修改 通过索引选取Series对象中的值。 import pandas as pd s1 = pd.Series([166,178,180],index=["s01","s02","s03"]) print(s1) s01 166 s02 178 s03 180 dtype: int64 s01 168 s02 178 s03 180 dtype: int64 print(s1[0],s1['s01']) 通过赋值语句可以修改Series对象中的值。 s1['s01']=168 print(s1) 166 166 访问格式:对象名[索引] s1[2]=206 或 s1['s03']=206 Series属性 查看Series对象的index、values属性值:对象名.属性 print(s1.values) 运行结果:[166 178 180] print(s1.index) 运行结果: index(['s01', 's02', 's03'], dtype='object') import pandas as pd s1=pd.Series([166,178,180],index=["s01","s02","s03"]) 初识DataFrame 由1个索引列(index)和若干个数据列组成二维数据结构。 考号 身高 立定跳远 0 430445 182 232 1 430435 163 168 2 430524 175 220 3 430326 172 243 4 430318 164 202 5 430416 159 196 6 430522 170 235 index 列标题:columns values DataFrame的创建 由1个索引列(index)和若干个数据列组成的二维数据结构。 columns values pd.DataFrame(字典,columns=标题) 读取二维数据文件创建对象。 DataFrame import pandas as pd df=pd.read_excel ("test.xlsx") 地区 规格 单位 价格 采价点 0 北京市 红富士一级 元/500克 2.98 超市2 1 北京市 红富士一级 元/500克 4.88 超市1 2 天津市 红富士一级 元/500克 5.00 超市1 3 天津市 红富士一级 元/500克 5.00 超市2 行索引:index 二维数据:values 列标题:columns DataFrame属性 print(df.index) 运行结果为: RangeIndex(start=0, stop=3, step=1) 查看DataFrame对象属性值:对象名.属性 地区 规格 单位 价格 采价点 0 北京市 红富士一级 元/500克 2.98 超市2 1 北京市 红富士一级 元/500克 4.88 超市1 2 天津市 红富士一级 元/500克 5.00 超市1 3 天津市 红富士一级 元/500克 5.00 超市2 DataFrame属性 print( df1.columns) 运行结果: index(['地区', '规格', '单位',‘价格’,‘采价点’],dtype='object') 查看DataFrame对象属性值:对象名.属性 地区 规格 单位 价格 采价点 0 北京市 红富士一级 元/500克 2.98 超市2 1 北京市 红富士一级 元/500克 4.88 超市1 2 天津市 红富士一级 元/500克 5.00 超市1 3 天津市 红富士 ... ...

~~ 您好,已阅读到文档的结尾了 ~~