06 2019 档案

摘要:一、心跳机制 1、心跳报告概念 datanode会定时的向namenode发送心跳报告,目的是告诉namenode自己的存活状况以及可用空间。这个时间默认为3秒。 2、心跳报告具体作用 (1)向namenode汇报自己的存活状况以及可用空间 (2)向namenode发送块报告,每一个datanode 阅读全文
posted @ 2019-06-30 20:00 快乐的张小凡 阅读(634) 评论(0) 推荐(0) 编辑
摘要:第一节:hdfs简介 用于海量数据存储的,就是一个文件系统,分布式文件系统。 hadoop distributed filesystem 第二节:设计思想 一、分而治之 将超级大的文件切分成每一个小文件(数据块)进行存储在不同的节点上。同时切分的数据块太大了,容易造成集群中节点的存储的负载不均衡。太 阅读全文
posted @ 2019-06-30 19:54 快乐的张小凡 阅读(533) 评论(0) 推荐(0) 编辑
摘要:第一节:简介 hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。 hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障 hadoop已经帮你规避了。 第二节:hadoop产生背景 一、google 海量的网页数据如何存储的问题? 海量网页数据如何计算? 海 阅读全文
posted @ 2019-06-30 19:50 快乐的张小凡 阅读(146) 评论(0) 推荐(0) 编辑
摘要:第一节:数据 一、概念 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频……. 二、分类 1、按照结构分 结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。 非结构化数据:没有任何结构的数据,视频、图片、音频 阅读全文
posted @ 2019-06-30 19:48 快乐的张小凡 阅读(181) 评论(0) 推荐(0) 编辑
摘要:第一节:简介 一、概念 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 做数据收集的工具,主要用于日志文件的收集。是一 阅读全文
posted @ 2019-06-30 17:27 快乐的张小凡 阅读(197) 评论(0) 推荐(0) 编辑
摘要:第一节:简介 一、概念 Azkaban是一套简单的任务调度服务,整体包括三部分webserver、dbserver、executorserver。 Azkaban是linkin的开源项目,开发语言为Java。 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个 阅读全文
posted @ 2019-06-30 17:22 快乐的张小凡 阅读(432) 评论(0) 推荐(0) 编辑
摘要:第一节:简介 hive的优化 mapreduce的优化 1个reducetask对应的数据量最好不超过2G reducetask的个数最好不超过0.95*datanode的个数 第二节:优化手段 一、合理选择排序 二、合理做笛卡尔积 三、in/exists效率低 hive 高效实现手段 inner 阅读全文
posted @ 2019-06-30 17:19 快乐的张小凡 阅读(131) 评论(0) 推荐(0) 编辑
摘要:第一节:简介 一、数据倾斜 数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 大数据中不怕数据量大,怕数据倾斜。 hive的数据倾斜 mapreduce的数据倾斜。 二、主要表现形式 hive运行日志中 map 100% reduce 97% map 100% reduce 9 阅读全文
posted @ 2019-06-30 17:17 快乐的张小凡 阅读(876) 评论(0) 推荐(0) 编辑
摘要:一、简介 hive运行的本质就是将hql语句,转换为一组操作符 operator。这里的 operator 代表 mapreduce操作和hdfs的操作,是hive执行hql语句的最小单位。 二、几个典型语句的分析 1、join 2、group by 3、order by shuffle 的排序,二 阅读全文
posted @ 2019-06-30 17:13 快乐的张小凡 阅读(196) 评论(0) 推荐(0) 编辑
摘要:一、进入hive之前的操作 1、简介 进入hive客户端之前的操作 hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] 2、设置参数相关的 -hiveconf set key=value hive -hiv 阅读全文
posted @ 2019-06-16 23:27 快乐的张小凡 阅读(210) 评论(0) 推荐(0) 编辑
摘要:一、简介 在hive中默认只支持单字节分隔符,不支持多字节(超过一个字节)分割符的。 单字节:| . : \t 多字节:|| :: .. create table test01(id int,name string) row format delimited fields terminated by 阅读全文
posted @ 2019-06-16 23:26 快乐的张小凡 阅读(595) 评论(0) 推荐(0) 编辑
摘要:一、简介 有一定的格式的字符串 map{}+array[]...... 二、解析方式 1、自己定义udf 2、使用内置的函数 get_json_object(json_txt, path) 参数1:需要解析的json字符串 参数2:路径,需要解析出来的当前json串中的路径 根目录:最外层的目录 $ 阅读全文
posted @ 2019-06-16 23:25 快乐的张小凡 阅读(672) 评论(0) 推荐(0) 编辑
摘要:第一节:内置函数 一、显示内置函数列表 show functions; 默认271个 二、查看函数的基本使用 desc function funname; desc function max; 三、查看函数的详细使用教程 desc function extended funname; desc fu 阅读全文
posted @ 2019-06-16 23:23 快乐的张小凡 阅读(527) 评论(0) 推荐(0) 编辑
摘要:第一节:原子数据类型 9种 整型4种 :tinyint、smallint、int、bigint 浮点型:float 、double 布尔:boolean 字符串:string 时间戳:timestamp 第二节:复杂数据类型 一、简介 所有的复杂数据类型都是由原子数据类型构成 二、array 1、概 阅读全文
posted @ 2019-06-16 23:21 快乐的张小凡 阅读(674) 评论(0) 推荐(0) 编辑
摘要:第一节:数据库 Hive的数据库同mysql中的数据库,将数据进行细化管理,不同业务模块的数据放在一个数据库中。 第二节:数据表 一、按管理权限分 1、内部表 管理权限是hive自己,hive对表中的数据(原始数据)有绝对的增删权限的。内部表在进行删除表的时候,表中的数据(hdfs对应的目录)会被删 阅读全文
posted @ 2019-06-16 23:17 快乐的张小凡 阅读(333) 评论(0) 推荐(0) 编辑
摘要:第一节:hive的产生背景 mapreduce处理的绝大多数的数据,都是格式化的数据。格式化的数据的处理sql最擅长。mapjoin reducejoin的开发代码要写40行,而sql就一个sql语句就可以了,例如:select * from a join b on a.id=b.id;。 mapr 阅读全文
posted @ 2019-06-16 23:14 快乐的张小凡 阅读(226) 评论(0) 推荐(0) 编辑
摘要:一、启动命令 启动hadoop:start-dfs.sh,start-yarn.sh 关闭hadoop:stop-dfs.sh,stop-yarn.sh 启动hdfs时可在任意节点,启动yarn得在相应yarn的主节点上执行 hadoop fs -命令(hadoop1.0的时候用的) hdfs df 阅读全文
posted @ 2019-06-09 22:10 快乐的张小凡 阅读(1881) 评论(0) 推荐(0) 编辑
摘要:一、简介 Group name: dml Commands: append, count, delete, deleteall, get, get_counter, get_splits, incr, put, scan, truncate, truncate_preserve 二、添加数据 行键 阅读全文
posted @ 2019-06-09 22:07 快乐的张小凡 阅读(334) 评论(0) 推荐(0) 编辑
摘要:一、简介 Group name: ddl Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, g 阅读全文
posted @ 2019-06-09 22:05 快乐的张小凡 阅读(526) 评论(0) 推荐(0) 编辑
摘要:一、简介 hbase中没有数据库概念,hbase中有namespace相当于hive中的数据库。 Group name: namespace Commands: alter_namespace, create_namespace, describe_namespace, drop_namespace 阅读全文
posted @ 2019-06-09 22:03 快乐的张小凡 阅读(2399) 评论(0) 推荐(0) 编辑
摘要:进入hbase的客户端:安装过hbase的节点都可以 进入客户端命令:hbase shell hbase的客户端操作界面:hbase(main):001:0> 查看帮助命令:help 查询相关命令的帮助:help command ctrl+backspace是删除 阅读全文
posted @ 2019-06-09 22:02 快乐的张小凡 阅读(858) 评论(0) 推荐(0) 编辑
摘要:导入:传统关系型数据库 >大数据平台的importmysql >hadoop--connect 指定关系型数据库链接url mysql:jdbc://hadoop02:3306/--username 指定数据库的用户名--password 指定数据库的密码--table 指定要导出数据的mysql数 阅读全文
posted @ 2019-06-09 21:54 快乐的张小凡 阅读(197) 评论(0) 推荐(0) 编辑
摘要:1、建库 create database mydb; create database if no exists mydb; create database if no exists mydb location "/aa/bb"; 2、查询数据库 查询库列表:show databases; 查询库详细 阅读全文
posted @ 2019-06-09 21:50 快乐的张小凡 阅读(129) 评论(0) 推荐(0) 编辑
摘要:第一节:进程管理 一、进程的概念 程序: 静态 (数据结构+算法) 进程: 程序的运行状态,动态的(一个程序可能有多个进程) 线程: 进程中执行任务最小单元 进程在运行过程中可能会产生新的进程,进程之间产生父子关系。产生进程的进程称为父进程;被产生的进程称为子进程。 二、进程生命周期 就绪状态: 除 阅读全文
posted @ 2019-06-03 22:35 快乐的张小凡 阅读(124) 评论(0) 推荐(1) 编辑
摘要:第一节:挂载 一、简介 将设备文件连接到一个已经存在目录。 挂载源: 设备文件 挂载点: 存在目录 二、挂载语法 mount -t(文件系统) iso9660/ext4 -o(挂载方式) ro(只读)/loop(磁盘分区) 挂载源 挂载点 三、实现挂载(临时) 设置虚拟机放入光盘,并且选中“已连接” 阅读全文
posted @ 2019-06-03 22:33 快乐的张小凡 阅读(145) 评论(0) 推荐(1) 编辑
摘要:第一节:文件权限 一、linux文件权限的描述格式 二、修改文件权限 三、修改文件所有权 chown 用户名:组 文件 普通文件: r: 可读 w:可写 x:可执行 目录: 可以ls 增删 可以cd 第二节:Linux开关机和重启 开机:开机键 关机:shutdown,halt,init 0,pow 阅读全文
posted @ 2019-06-03 22:28 快乐的张小凡 阅读(134) 评论(0) 推荐(1) 编辑
摘要:一、压缩 gzip 文件列表 gzip -d 压缩包(解压缩)(drop) 二、打包 tar -cvf a.tar 文件列表 解包: tar -xvf a.tar -C 目录 三、打包并压缩 tar -zcvf a.tar.gz 文件列表 四、解包并解压缩 tar -zxvf a.tar.gz -C 阅读全文
posted @ 2019-06-02 22:54 快乐的张小凡 阅读(385) 评论(0) 推荐(1) 编辑
摘要:一、简介 1、概念 文本编辑器,类unix操作系统自带文本编辑器。vim增强版本(有些版本不一定自带,如mini版)。 2、使用语法 vi 文件 vim 文件 3、vi编辑器的三种模式 命令模式、插入模式、底行模式(w:保存 q:退出 !:强制退出) 二、三种模式命令 1、命令模式 ↑↓←→ 或者 阅读全文
posted @ 2019-06-02 22:47 快乐的张小凡 阅读(125) 评论(0) 推荐(1) 编辑
摘要:一、命令格式 命令关键字 [选项] [参数] 选项: 短格式: -简写 ls -a 长格式: --全拼 ls --all 组合: ls -a -l ==> ls –al 常见的命令分为:文件管理、磁盘管理、文档处理、用户和组、文件传输、网络通信、备份压缩、系统管理、系统设置 二、帮助手册 命令:ma 阅读全文
posted @ 2019-06-02 22:23 快乐的张小凡 阅读(130) 评论(0) 推荐(1) 编辑
摘要:一、目录树 目录 + 普通文件 linux操作系统没有文件扩展名称,添加后缀只是用于方便管理,根据文件内容判断文件类型。 二、常见目录 /:根目录,存放具有特定功能目录 /bin:binary 二进制(二进制可执行文件,命令) /dev:device 设备(设备目录) /home:普通用户家目录 / 阅读全文
posted @ 2019-06-02 21:55 快乐的张小凡 阅读(87) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示