简要概述大数据产生的背景及其特征

大数据产生的背景及其特征:

  随着时代的发展,科学技术的进步,人们使用,了解数据,信息不在单纯的来自于书本,杂志,报刊等,伴随着移动互联,社交网络,电子商务,物联网,车联网,GPS,医学影像,安全监控等技术的成熟与发展,使得各种数据正迅速的膨胀并变大。数据呈爆炸性增长的趋势。

  大数据即大量的数据,但大数据为何会得到发展呢,原因不仅在于数据爆炸性的增长,数据作为资产其价值得到人们的认可而被重视且处理数据的能力不断提高,还在于设备软件等的发展使得数据存储和计算的能力飞速发展。使得大量的数据能得以存储,得以利用。其次业务需求也在发生变化,从设备从单节点部署——>集群部署——>分布式部署。最后一个得以发展的原因是大数据时代的国家战略性的动。    

        Google的(三篇论文):在2003年发表的  Google File System谷歌的分布式文件系统(GFS),PageRank于2004年发表的MapReduce(分布式计算模型),2007发表的BigTable,BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的-一种非关系型的数据库。这三篇论文奠定了大数据技术的基础。

  我们可以通过大数据技术基于已存在的数据透过现象来看本质,从已知去预测未知。从技术角度来看,大数据简而言之:它是利用一定的技术,对海量的不同类型的数据进行采集、存储、分析、处理,最终能促进政府作出科学决策、促进企业实现经济效率最大化的一科学技术手段

  大数据的概念:大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合业界通常用4个V(即Volume、Variety. Value、 Velocity)来概括大数据的特征。

  Volumn:指数据的体量巨大,从TB级别,跃升到PB级别。

  Variety:数据类型繁多,如网络日志,视频,图片,表格,地理位置信息等。数据种类分为结构化数据,半结构化数据的和非结构化数据。

    结构化数据:结构化数据通常是指用关系数据库方式记录的数据,数据按表和字段进行存储,字段之间相互独立。如表格,

    半结构化数据:半结构化数据是指以自描述的文本方式记录的数据,由于自描述数据无需满足关系数据库上那种非常严格的结构和关系,在使用过程中非常方便。很多网站和应用访问日志都采用这种格式,网页本身也是这种格式。常见的如XML、JSION等

    非结构化数据:非结构化数据通常是指语音、图片、视频,办公文档,文本HTML等格式的数据。这类数据一般按照特定应用格式进行编码,数据量非常大,且不能简单地转换成结构化数据。

  Value:价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的问题。

  Velocity:数据处理速度块,如百度每天日搜索50亿次,且要处理如此多的请求。可见其处理数据地速度之快。

  大数据常见的应用领域:电子商务,互联网,安全监控,农业大数据,智慧交通,智慧医疗,疾病防控,人口迁徙等。

 

 

 

 

 

 

 

 

 

 

 

  

posted @ 2020-07-20 12:47  倾尽年华  阅读(4228)  评论(0编辑  收藏  举报