大数据基础

一. 大数据基础入门：Hadoop的背景起源之一

1.为什么要学习大数据

目的：会有很好的工作
对比：Java与大数据对比，大数据薪水比较高

2.什么是大数据

　举例说明如下：

商品推荐 (用大数据统计购物网站商品的销量，可以清楚哪些商品卖的好，哪些商品卖的不好)。大数据处理的问题：(1)大量订单如何存储？ (2)大量订单如何计算？
天气预报 (可统计过去N年的数据) ，同上用大数据进行对天气数据的存储和计算。
根据以上两条案例可知大数据的本质：
(1) 数据的存储：分布式文件系统(分布式存储) (2)数据的计算：分布式计算

3.Java和大数据是什么关系

Hadoop：基于Java语言开发
Spark：基于Scala语言，Scala基于Java语言

4.学习大数据需要的基础和路线

学习大数据需要的基础：

(1) Java基础(只需JavaSE知识，不需要学习JavaEE知识)--->类、继承、I/O、反射、泛型......　

(2) Linux基础(Linux的操作)---->创建文件、目录、vi编辑器......

学习路线：

　　 (1) Java基础和Linux基础

(2) Hadoop的学习：体系结构、原理、编程

a.第一阶段：HDFS(分布式文件系统)、MapReduce(是一个Java程序，用于大数据的计算)、HBase(NoSQL数据库)，这三个是Hadoop中最核心的组件。

b.第二阶段：数据分析引擎：hive、pig 数据采集引擎：dqoop、flume

c.第三阶段： web管理工具：HUE 　 Zookeeper：实现Hadoop的HA Oozie：数据流引擎

(3) Spark的学习

a.第一阶段：Scala编程语言

　　　　 b.第二阶段：Spark Core---->基于内存、数据的计算

　　　　 c.第三阶段：Spark SQL----->类似Oracle中的SQL语句

　　　　 d.第四阶段：Spark Streaming------>进行实时计算(流式计算)：例如:自来水厂

　　 (4) Apache Storm的学习

Apache Storm类似Spark Streaming，进行实时计算的系统，实时计算的结果保存在Redis数据库中。所以还需要学习NoSQL数据库Redis（基于内存的数据库）

二. 大数据基础入门：Hadoop的背景起源之二

1. 什么是大数据、本质？

(1)数据的存储：分布式文件系统(分布式存储)------->HDFS: Hadoop Distributed File System 来源于 GFS: Google File System

(2)数据的计算：分布式计算

2. 如何解决大数据的存储?

(1)GFS:没有硬盘的，数据只能存在内存中

(2)Hadoop的安装模式：

a. 本地模式： 1台

b. 伪分布模式： 1台

c. 全分布模式： 3台

posted @ 2018-02-10 10:03 zgfraymond 阅读(198) 评论(0) 编辑收藏举报

刷新页面返回顶部

zgfraymond

python, golang, html/css/javascript, linux运维，大数据，云计算，人工智能，区块链