
第五章 数据处理和可视化表达 网络购物平台客户行为数据分析报告 ——— 以网络购物平台零食销售数据分析为例 一、引言 随着移动互联网和物联网的飞速发展,人类社会产生的数据以惊人的 速度增长。海量的数据几乎包含一切形式的结构化、半结构化以及非结构 化的数据,如网络日志、音频、视频、图片、地理位置信息等。如何高效 地对这些数据进行采集、存储、处理,并从中发掘到有价值的信息,是大 数据分析处理需要解决的问题。 二、分析目的 在日常工作,生活和学习中,大数据已成为人们提取信息、做出决策 的重要依据。大数据分析,使得商家可以通过分析网络购物平台客户的行 为数据,如客户购物订单中包含的商品,客户的购物行为特征、消费特征 等数据,为商品的区域摆放、捆绑销售等决策提供依据,甚至根据客户的 购物喜好,为客户提供个性化需求或服务,以提升市场的占有率。 通过完成“网络购物平台客户行为数据分析和可视化表达”项目,认 识大数据及其特征,认识大数据对人们日常生活的影响,了解数据采集、 分析和可视化表达的基本方法;学会选用恰当的软件工具或平台处理数 据,完成分析报告;理解对数据进行保护的意义。 三、数据需求 1.零食销售数据 包括零食名称(title)、店铺名称(store)、零食价格(price)、零食 订单量(paynum)等数据。 · 1 · 2.客户订单数据 包括客户订单中商品名称等数据。 3.客户消费特征数据 包括客户年龄、平均每次消费金额、平均消费周期(天)等数据。 4.客户购物行为特征数据 包括客户身高、体重、年龄以及客户属性等数据。 四、数据采集 1.确定数据来源 项目所需的零食销售数据、客户订单数据、客户消费特征数据、客户 购物行为特征数据等,来源于网络购物平台。 2.数据的采集 通过网络数据采集法,利用Python爬虫程序等工具从网络购物平台采集 零食销售数据、客户订单数据、客户消费特征数据以及客户购物行为特征 数据。 爬虫程序采集零食销售数据关键代码如下所示。 ·2 · 爬虫程序运行关键过程如下。 ( 请 输入要搜索的商品名称:零食 请输入想要搜索的商品页数:100 爬 取 到3036条商品数据 写 入excel表格成功! ) 爬虫程序采集零食销售数据如图5-1所示。 图 5-1 采集零食销售数据 3.数据的保存管理 项目数据都来自网络购物平台的非隐私数据,可以保存在本地电脑或 数据库中,以便数据分析时使用,还可以通过云盘等方式把数据分享给小 组成员或他人,实现数据共享。 五、数据分析和可视化表达 1.数据分析 数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模 ·3 · 型评价等。 (1)特征探索。大数据特征探索的主要任务是对数据进行预处理,发 现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求 最大值、最小值、极差等描述性统计量。 零食销售数据特征探索过程如下。 ①使用XAMPP建站集成软件创建零食销售数据数据库datas,数据如图 5-2所示。 图 5-2 使用 XAMPP 建站集成软件创建零食销售数据库 datas ②运行“程序5-4-2 商品销售数据特征探索.py”,连接数据库程序代 码如下所示。 ( conn=pymysql.connect(host="127.0.0.1",user="root",passwd="",db="datas") sql="select * from datas" data=pda.read_sql(sql,conn) ) ③程序运行过程中依次生成数据清洗前的散点图,异常数据处理后的 散点图,价格直方图、销量直方图,如图5-3所示。 ·4 · 图 5-3 运行结果 特征探索的结果:从散点图中可以看到,经过异常数据处理后的散点 图数据分布比较均匀;从价格直方图可以看到,价格区间在8~24的零食种 类比较多;从销量直方图可以看到,销量在2000的零食种类占比大。 (2)关联分析。关联分析就是分析并发现存在于大量数据之间的关联 性或相关性 ... ...
~~ 您好,已阅读到文档的结尾了 ~~