1-hadoop-入坑

大数据

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。

适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,

云计算平台,互联网,和可扩展的存储系统。

 

主要解决:海量数据的存储和海量数据分析计算问题

 

基本的存储单位:

bit Byte KB MB GB TB PB EB ZB YB BB NB DB

1Byte = 8bit
1K=1024Byte
1MB=1024K
1G=1024M
1T=1024G
1p=1024T

 

大数据的特点

1、Volume(大量)
2、Velocity(高速)
3、Variety(多样)
  结构化数据:数据库/文本为主
  非结构化数据:网络日志、音频、视频等
4、value(低价值密度)
  价值密度的高低与数据总量的大小成反比
  如何对价值数据“提纯”称为目前大数据背景下待解决的难题

 

大数据的应用场景

1、物流仓储:大数据分析系统主力商家精细化运营、提升销量、节约成本
2、零售:分析用户的消费习惯,为用户购买商品提供方便,提升销量
3、旅游:深度结合大数据旅游能力与旅游行业需求,共建旅游产业园管理,智慧服务和营销
4、商品广告推荐:给用户推荐可能喜欢的项目
5、保险,金融,房产
6、人工智能

 

业务流程分析

 

大数据部门的组织结构

主要两个方向:

1、数据分析

2、数据挖掘

 

posted @ 2019-07-20 13:28  MrChengs  阅读(161)  评论(0编辑  收藏  举报