(
课件网) 第五章 数据处理和可视化表达 多样化的数据 都是什么呢? 地理位置信息 网络日志 你从哪个网页跳转来? 你点击了哪些商品? 商品页面上停留的时间? 评价关注程度 颜色偏好 品牌偏好 数据的概念 数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象,如图像、视频、音频、文本(文字、数值、字符)等。 计算机科学中的数据 数据是对所有输入计算机并被计算机识别、存储和处理的符号的总称,是联系现实世界和计算机世界的途径。 数据的概念 数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象,如图像、视频、音频、文本(文字、数值、字符)等。 数据的基本特征 (1)二进制。 在计算机中,数据以二进制的形式存储、加工。 (2)语义性。 语义是将数据符号解释为客观世界的事物。 (3)分散性。 数据是分散的记录,分别记录不同客观事物的运动状态。 120 某个小朋友的身高是120cm 衣服的价格是120元 (4)多样性和感知性。 数据记录的形式是多样的、可看的、可听的、可感知的,如图形、图像、视频、音频、文字等。 汽车在高速路上的行驶速度为120km/h 二进制:由0,1两个数码来表示数据。 练一练(P8 1): (单选题)1、下列选项中不属于数据的是 ( ) A、进入商场时用额温枪测量的体温 B、教室里电子时钟显示的时间 C、春游时手机里拍摄的风景照片 D、记录旅行日记的笔记本 D 大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 一、认识大数据 二、大数据的特征 多样化:即数据类型繁多 都是什么呢? 地理位置信息 网络日志 你从哪个网页跳转来? 你点击了哪些商品? 商品页面上停留的时间? 评价关注程度 颜色偏好 品牌偏好 价值密度低 比如视频,在连续不间断存储的监控视频中,有用的数据可能只有一两秒。 变化速度快 二、大数据的特征 二、大数据的特征 三、大数据对日常生活的影响 方便支付 方便出行 方便购物与产品推介 三、大数据对日常生活的影响 P64 例1、例2、例3、例4 P67 1、2 P69 16-21 【二、数据的采集】 (一)数据采集的方法与工具 1.系统日志采集法 在信息系统中,系统日志是记录系统硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用日志和安全日志。 系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。 【二、数据的采集】 (一)数据采集的方法与工具 2.网络数据采集法: 网络数据采集:指通过网络爬虫或网站公开API(Application Programming Interface, 应用程序接口)等方式从网站上获取数据信息。 网络爬虫的过程 工作过程: (1)从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL。 (2)在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件。 采集类型:支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 【二、数据的采集】 (一)数据采集的方法与工具 3.其他数据采集法。 应用领域:企业生产经营或科学研究等保密性要求较高的数据。 使用方法:与企业或研究机构合作,使用特定系统接口等相关方式收集数据 例如:科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。 【二、数据的采集】 (一)数据采集的方法对比 采集方法 数据来源 采集工具 应用范围(举例) ... ...