摘要:
Hive操作 1、建库 create database mydb;create database if no exists mydb;create database if no exists mydb location "/aa/bb"; 2、查询数据库查询库列表:show databases;查询 阅读全文
摘要:
Hive简介 第一节:hive的产生背景 mapreduce处理的绝大多数的数据,都是格式化的数据。格式化的数据的处理sql最擅长。mapjoin reducejoin的开发代码要写40行,而sql就一个sql语句就可以了,例如:select * from a join b on a.id=b.id 阅读全文
摘要:
hdfs原理之四大机制 一、心跳机制 1、心跳报告概念 datanode会定时的向namenode发送心跳报告,目的是告诉namenode自己的存活状况以及可用空间。这个时间默认为3秒。 2、心跳报告具体作用 (1)向namenode汇报自己的存活状况以及可用空间 (2)向namenode发送块报告 阅读全文
摘要:
Hadoop功能模块之hdfs 第一节:hdfs简介 用于海量数据存储的,就是一个文件系统,分布式文件系统。 hadoop distributed filesystem 第二节:设计思想 一、分而治之 将超级大的文件切分成每一个小文件(数据块)进行存储在不同的节点上。同时切分的数据块太大了,容易造成 阅读全文
摘要:
Hadoop介绍 第一节:简介 hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。 hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障 hadoop已经帮你规避了。 第二节:hadoop产生背景 一、google 海量的网页数据如何存储的问题? 海量网页 阅读全文
摘要:
大数据的介绍 第一节:数据 一、概念 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频……. 二、分类 1、按照结构分 结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。 非结构化数据:没有任何结构的数据,视 阅读全文
摘要:
Hadoop之shell命令 一、启动命令 启动hadoop:start-dfs.sh,start-yarn.sh 关闭hadoop:stop-dfs.sh,stop-yarn.sh 启动hdfs时可在任意节点,启动yarn得在相应yarn的主节点上执行 hadoop fs -命令(hadoop1. 阅读全文
摘要:
Flume 第一节:简介 一、概念 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 做数据收集的工具,主要用于日志文件 阅读全文
摘要:
Sqoop 导入:传统关系型数据库 >大数据平台的importmysql >hadoop--connect 指定关系型数据库链接url mysql:jdbc://hadoop02:3306/--username 指定数据库的用户名--password 指定数据库的密码--table 指定要导出数据的 阅读全文
摘要:
drop、truncate和delete的区别 (1)DELETE语句执行删除的过程是每次从表中删除一行,并且同时将该行的删除操作作为事务记录在日志中保存以便进行进行回滚操作。 TRUNCATE TABLE 则一次性地从表中删除所有的数据并不把单独的删除操作记录记入日志保存,删除行是不能恢复的。并且 阅读全文