Hadoop简介
1. 大数据简介
大数据已经走进了我们的生活!
典型案例:
1.章鱼保罗
章鱼保罗出生于2008年,逝世于2010年10月25日,人们称他为章鱼帝,预言帝,它曾经在2008年欧洲杯和2010年世界杯的14场比赛当中预测13场比赛结果的胜利,正确率92.85%,并且预测成功2010年世界杯为西班牙夺冠。
2. 谷歌的云计算平台
作为全球最大的搜索引擎平台,它通过大数据和云计算技术进行网络,微博等平台进行数据抓取和分析成功预测了世界杯16强比赛每场比赛的胜利者。据说霍金也曾经参与的数据算法的设计。
3. 沃尔玛(啤酒与尿不湿)
沃尔玛作为全球最大的零售厂商,他对用户购买的物品数据进行了分析,发现在美国啤酒和尿不湿经常出现在同一张购物单上,所以他将啤酒和尿不湿放到了一起销售,大大提高了销售额度,不仅如此,他还将其他经常出现的物品放到了一起
4. 百度高考
2014年预测押中了全国18套作文考题中的12套
5. 其他典型案例
大数据岗位
大数据系统开发工程师
主要负责开发大数据处理的系统,比如说hadoop和spark等
大数据应用开发工程师
主要负责在大数据开发平台上开发大数据处理的应用,比如说hadoop和spark等
大数据可视化工程师
主要负责将数据以可以展现出来的形式,从而实现人和机器共同工作分析数据得到想要的结果
大数据分析师
主要负责发现数据价值,设置数据分析的算法
什么是大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取管理和梳理数据的集合
大数据是一种方法论:“一切都被记录,一切都被数字化,从数字里寻找需求,寻找知识,发掘价值”,从而替代直觉,依靠数据进行决策
大数据技术:指从各种各样类型的数据中快速获得有价值信息的能力
大数据的特点
1. 数据体量巨大
例如腾讯最高消息条数达到10000亿条,日接入数据量达到了200TB
2. 数据类型多样,以非结构化数据为主
3. 价值密度低
价值密度的高低与数据总量的大小成反比
迅速的完成数据的价值“提纯”是目前大数据汹涌背景下待解决的难题
4. 产生和要求处理速度快
大数据处理平台
开源: 商用:
Hadoop IBM PureData
Spark(Apache) Oracle Exadata
Storm(Twitter) Teradata AsterData
MongoDB EMC GreenPlum HP Vertica
Hadoop简介
Hadoop的优势
厂商支持
创始人
Hadoop可以做什么
HDFS用于存储大数据
分布式概念
MapReduce用于处理数据
Map分配数据到各个节点,Reduce拉取处理后数据
4.HBase用于存储数据,快速高效查询处理
5.Zookeeper用于协调各个组件
6.Hadoop生态圈