摘要: 一、 什么是大数据?大数据:指指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。 二、大数据的特点1、海量化(Volume)数据量从TB到PB级别2、多样化(Variety)数据类型复杂,超过80%的数据是非结构化的3、快速化(Velocity)数据量在持续增加(两位数的年增长率)数据 阅读全文
posted @ 2021-03-01 11:18 GoodGad 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 什么是大数据在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是发数据技术。 梳理海量数据的核心技术: 海量数据的储存(分布式)海量数据的运算(分 阅读全文
posted @ 2021-03-01 11:15 GoodGad 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 第九课:Spark基础 第一节:什么是Spark?Spark的特点和结构 1、什么是Spark? Spark是一个针对大规模数据处理的快速通用引擎。 类似MapReduce,都进行数据的处理 2、Spark的特点: (1)基于Scala语言、Spark基于内存的计算 (2)快:基于内存 (3)易用: 阅读全文
posted @ 2021-03-01 10:23 GoodGad 阅读(45) 评论(0) 推荐(0) 编辑
摘要: 第八课:开发WordCount程序 依赖jar:/root/training/hadoop-2.4.1/share/hadoop/common/lib/root/training/hadoop-2.4.1/share/hadoop/common/ /root/training/hadoop-2.4. 阅读全文
posted @ 2021-03-01 10:21 GoodGad 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 第七讲:MapReduce入门 第一节:回顾:MapReduce的编程模型 第二节:WordCount的流程分析 1、伪分布环境运行WordCount hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /data/input/data. 阅读全文
posted @ 2021-03-01 10:20 GoodGad 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 第一节:HDFS的相关命令 -mkdir 在HDFS创建目录 hdfs dfs -mkdir /data -ls 查看当前目录 hdfs dfs -ls / -ls -R 查看目录与子目录 -put 上传一个文件 hdfs dfs -put data.txt /data/input -moveFro 阅读全文
posted @ 2021-03-01 10:18 GoodGad 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 第五课:搭建Hadoop的环境 准备实验的环境:1、安装Linux、JDK2、配置主机名、免密码登录3、约定:安装目录:/root/training 安装:1、解压 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/2、设置环境变量: vi ~/.b 阅读全文
posted @ 2021-03-01 10:16 GoodGad 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 第四课:Hadoop的背景起源三 : BigTable > 大表 > NoSQL数据库:HBase 第一节:关系型数据库(Oracle、MySQL、SQL Server)的特点 1、什么是关系型数据库?基于关系模型(基于二维表)所提出的一种数据库 2、ER(Entity-Relationalship 阅读全文
posted @ 2021-03-01 10:15 GoodGad 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 第三课:Hadoop的背景起源二:MapReduce 一、什么是大数据,本质? (1)数据的存储:分布式文件系统(分布式存储) > HDFS: Hadoop Distributed File System (2)数据的计算:分布式计算 二、如何解决大数据的计算?分布式计算 (1)什么是PageRan 阅读全文
posted @ 2021-03-01 10:13 GoodGad 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 一、什么是大数据,本质? (1)数据的存储:分布式文件系统(分布式存储) > HDFS: Hadoop Distributed File System (2)数据的计算:分布式计算 二、如何解决大数据的存储? > 分布式文件系统(HDFS,来源于GFS) 举例:网盘 (1) GFS: 没有硬盘的,数 阅读全文
posted @ 2021-03-01 10:12 GoodGad 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 第一节:为什么要学习大数据 1、目的:很好工作 2、对比:Java开发和大数据开发 第二节:什么是大数据? 举例: 1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算? 2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算? 什么是大数据,本质? 阅读全文
posted @ 2021-03-01 10:10 GoodGad 阅读(127) 评论(0) 推荐(0) 编辑
Live2D