ID: 18224997

7.4 大数据技术 课件 (共33张PPT)《信息技术基础》(高教版)

日期:2025-05-02 科目: 类型:课件 查看:29次 大小:3355228B 来源:二一课件通
预览图 1/12
数据,技术,课件,33张,PPT,信息技术基础
  • cover
(课件网) 第7章 新一代信息技术及其应用 本章将介绍云计算、虚拟现实、物联网、大数据以及人工智能等方面的基本概念和知识,并对这些新一代信息技术当前的应用场景做一个简要说明。 《信息技术基础》配套资源 今天,各行各业都会产生大数据,如图7-60所示。例如交通领域视频监控、车辆GPS、公共交通卡终端、车辆地铁飞机的运行等各场景下的数据,波音飞机上,每个引擎3分钟产生1TB数据,波音787飞行6小时可产生240TB数据;物联网(IoT)的发展,赋予了各种家电设备、机器设备数据传输角色;零售业会产生POS销售系统数据、订单/库存/供应链管理的ERP系统数据;银行业产生大量交易、影像留存数据;互联网行业,Web网页、App每天生成大量日志文件、图片、视频、电商销售数据等。Facebook2018年月度活跃用户人数为23.2亿人,每天产生50TB的日志数据,衍生分析数据超过100TB。数据无处不在,它们最直观的感受就是大、多、有价值、管理处理较难等。 7.4 大数据技术 图7-60 各行各业都会产生大数据 1.大数据的定义 大数据(big data)定义有很多版本,Apache Hadoop定义大数据为“通过传统的计算机在可接受的范围内不能捕获、管理和处理的数据集合”。 麦肯锡在《大数据:创新、竞争和生产力的下一个前沿领域》一书中给出的定义是:“Datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze”,(一种规模超过现有数据库工具获取、存储、管理、分析方面能力范围的数据集),且同时强调并不是超过某个特定数量级的数据集才是大数据。 另外对大数据目标属性的描述,普遍认为大数据一定是有用的,企业、非盈利组织、政府和个人能够从整合多源数据中获得更好决策,能帮助我们发现相关数据并分析其影响。 若覆盖多个方面,可以对大数据做如下综合定义:指数据本身及为了实现“数据-价值”这一价值逻辑而涉及的工具、平台和系统的合集。 7.4 大数据技术 2.大数据的特征 大数据有4个特性,简称4V:Volume、Variety、Velocity、Value,分别表示海量的数据规模、多样的数据类型、快速的数据分析处理和价值密度低四大特征。 1)规模性(Volume):数据量大是最直观的感受,大型强子对撞每秒产生40TB的数据,百度存储网页数量接近1万亿,目前数据总量近1000PB。今天,存储单位已由过去的GB到TB再到PB、EB,传统的集中存储已不能满足需求,分布式存储获得大量应用。 2)多样性(Variety):主要指数据结构的多样性。我们把数据分为结构化数据、半结构化数据和非结构化数据。 结构化数据:格式非常规范,有固定的结构、属性划分,通常由二维表结构存储在关系型数据库中,数据记录的每个属性对应数据表中一个字段。 非结构化数据:没有标准格式的数据,如视频、图片、音频、报表文件等。 半结构化数据:格式较为规范但不固定,不同数据的属性的顺序、个数等是不一定一样的。 7.4 大数据技术 3)高速性(Velocity):大数据处理常要求秒级、毫秒级。例如,银行需在信用卡交易的场景下毫秒级识别盗刷信用卡,电商需要实时反应针对客户做出个性化推荐。快,一方面指数据产生的快,另一方面指数据处理得快。产生方面,有的是爆发性的如强子对撞机PB/s级产生数据,有的是细流式的,如点击流数据,单次量小但用户数大,数据产生仍然快。处理方面,大数据处理可分为离线批处理和实时流处理,相比离线批处理偏重高吞吐量,实时流处理更偏重时延性,也就是处理的快。 4)价值性(Value):首先,数据是有价值的,但大数据往往价值密度低,需要对大量不相关信息,利用机器学习、神经网络学习进行复杂的数据挖掘和分析。 7.4 大数据 ... ...

~~ 您好,已阅读到文档的结尾了 ~~