2020 年 7月 21 日随笔档案 - 整合侠

2020年7月21日

摘要： Hadoop - hdfs dfs常用命令的使用用法 1，-mkdir 创建目录Usage：hdfs dfs -mkdir [-p] < paths>选项：-p很像Unix mkdir -p，沿路径创建父目录。 2，-ls 查看目录下内容，包括文件名，权限，所有者，大小和修改时间Usage：hdf 阅读全文

posted @ 2020-07-21 15:10 整合侠阅读(12754) 评论(0) 推荐(0) 编辑

Hive之优化

摘要： Hive之优化第一节：简介 hive的优化 mapreduce的优化 1个reducetask对应的数据量最好不超过2G reducetask的个数最好不超过0.95*datanode的个数第二节：优化手段一、合理选择排序二、合理做笛卡尔积三、in/exists效率低 hive 高效实现手阅读全文

posted @ 2020-07-21 14:49 整合侠阅读(138) 评论(0) 推荐(0) 编辑

Hive之数据倾斜

摘要： Hive之数据倾斜第一节：简介一、数据倾斜数据倾斜：由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。大数据中不怕数据量大,怕数据倾斜。 hive的数据倾斜 mapreduce的数据倾斜。二、主要表现形式 hive运行日志中 map 100% reduce 97% map 100 阅读全文

posted @ 2020-07-21 14:48 整合侠阅读(417) 评论(0) 推荐(0) 编辑

Hive之执行流程

摘要： Hive之执行流程一、简介 hive运行的本质就是将hql语句，转换为一组操作符 operator。这里的 operator 代表 mapreduce操作和hdfs的操作，是hive执行hql语句的最小单位。二、几个典型语句的分析 1、join 2、group by 3、order by shu 阅读全文

posted @ 2020-07-21 14:46 整合侠阅读(379) 评论(0) 推荐(0) 编辑

Hive的高级应用

摘要： Hive的高级应用一、进入hive之前的操作 1、简介进入hive客户端之前的操作 hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] 2、设置参数相关的（1）-hiveconf -hiveconf 阅读全文

posted @ 2020-07-21 14:45 整合侠阅读(283) 评论(0) 推荐(0) 编辑

Hive之函数

摘要： Hive之函数第一节：内置函数一、显示内置函数列表 show functions；默认271个二、查看函数的基本使用 desc function funname; desc function max; 三、查看函数的详细使用教程 desc function extended funname; 阅读全文

posted @ 2020-07-21 14:43 整合侠阅读(380) 评论(0) 推荐(0) 编辑

Hive之数据类型

摘要： Hive之数据类型第一节：原子数据类型 9种整型4种：tinyint、smallint、int、bigint 浮点型：float 、double 布尔：boolean 字符串：string 时间戳：timestamp 第二节：复杂数据类型一、简介所有的复杂数据类型都是由原子数据类型构成二阅读全文

posted @ 2020-07-21 14:42 整合侠阅读(417) 评论(0) 推荐(0) 编辑

Hive之数据组织形式

摘要： Hive之数据组织形式第一节：数据库 Hive的数据库同mysql中的数据库，将数据进行细化管理，不同业务模块的数据放在一个数据库中。第二节：数据表一、按管理权限分 1、内部表管理权限是hive自己，hive对表中的数据（原始数据）有绝对的增删权限的。内部表在进行删除表的时候，表中的数据（h 阅读全文

posted @ 2020-07-21 14:40 整合侠阅读(358) 评论(0) 推荐(0) 编辑

Hive操作

摘要： Hive操作 1、建库 create database mydb;create database if no exists mydb;create database if no exists mydb location "/aa/bb"; 2、查询数据库查询库列表：show databases;查询阅读全文

posted @ 2020-07-21 14:39 整合侠阅读(160) 评论(0) 推荐(0) 编辑

Hive简介

摘要： Hive简介第一节：hive的产生背景 mapreduce处理的绝大多数的数据，都是格式化的数据。格式化的数据的处理sql最擅长。mapjoin reducejoin的开发代码要写40行，而sql就一个sql语句就可以了，例如：select * from a join b on a.id=b.id 阅读全文

posted @ 2020-07-21 14:38 整合侠阅读(695) 评论(0) 推荐(0) 编辑

hdfs原理之四大机制

摘要： hdfs原理之四大机制一、心跳机制 1、心跳报告概念 datanode会定时的向namenode发送心跳报告，目的是告诉namenode自己的存活状况以及可用空间。这个时间默认为3秒。 2、心跳报告具体作用（1）向namenode汇报自己的存活状况以及可用空间（2）向namenode发送块报告阅读全文

posted @ 2020-07-21 14:36 整合侠阅读(535) 评论(0) 推荐(0) 编辑

Hadoop功能模块之hdfs

摘要： Hadoop功能模块之hdfs 第一节：hdfs简介用于海量数据存储的，就是一个文件系统，分布式文件系统。 hadoop distributed filesystem 第二节：设计思想一、分而治之将超级大的文件切分成每一个小文件（数据块）进行存储在不同的节点上。同时切分的数据块太大了，容易造成阅读全文

posted @ 2020-07-21 14:35 整合侠阅读(504) 评论(0) 推荐(0) 编辑

Hadoop介绍

摘要： Hadoop介绍第一节：简介 hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。 hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障 hadoop已经帮你规避了。第二节：hadoop产生背景一、google 海量的网页数据如何存储的问题？海量网页阅读全文

posted @ 2020-07-21 14:33 整合侠阅读(161) 评论(0) 推荐(0) 编辑

大数据的介绍

摘要：大数据的介绍第一节：数据一、概念数据就是数值，也就是我们通过观察、实验或计算得出的结果。数字、图片、视频……. 二、分类 1、按照结构分结构化数据：mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列，每一行对应的列的类型一致的。非结构化数据：没有任何结构的数据，视阅读全文

posted @ 2020-07-21 14:32 整合侠阅读(541) 评论(0) 推荐(0) 编辑

Hadoop之shell命令

摘要： Hadoop之shell命令一、启动命令启动hadoop：start-dfs.sh，start-yarn.sh 关闭hadoop：stop-dfs.sh，stop-yarn.sh 启动hdfs时可在任意节点，启动yarn得在相应yarn的主节点上执行 hadoop fs -命令（hadoop1. 阅读全文

posted @ 2020-07-21 14:31 整合侠阅读(1045) 评论(0) 推荐(0) 编辑

Flume

摘要： Flume 第一节：简介一、概念 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。做数据收集的工具，主要用于日志文件阅读全文

posted @ 2020-07-21 14:27 整合侠阅读(1623) 评论(0) 推荐(0) 编辑

Sqoop

摘要： Sqoop 导入：传统关系型数据库 >大数据平台的importmysql >hadoop--connect 指定关系型数据库链接url mysql:jdbc://hadoop02:3306/--username 指定数据库的用户名--password 指定数据库的密码--table 指定要导出数据的阅读全文

posted @ 2020-07-21 14:23 整合侠阅读(240) 评论(0) 推荐(0) 编辑

drop、truncate和delete的区别

摘要： drop、truncate和delete的区别（1）DELETE语句执行删除的过程是每次从表中删除一行，并且同时将该行的删除操作作为事务记录在日志中保存以便进行进行回滚操作。 TRUNCATE TABLE 则一次性地从表中删除所有的数据并不把单独的删除操作记录记入日志保存，删除行是不能恢复的。并且阅读全文

posted @ 2020-07-21 14:14 整合侠阅读(409) 评论(0) 推荐(0) 编辑

linux之目录结构

摘要： linux之目录结构一、目录树目录 + 普通文件 linux操作系统没有文件扩展名称,添加后缀只是用于方便管理，根据文件内容判断文件类型。二、常见目录 /：根目录,存放具有特定功能目录 /bin：binary 二进制（二进制可执行文件，命令） /dev：device 设备（设备目录） /hom 阅读全文

posted @ 2020-07-21 13:46 整合侠阅读(153) 评论(0) 推荐(0) 编辑

Azkaban

摘要： Azkaban 第一节：简介一、概念 Azkaban是一套简单的任务调度服务，整体包括三部分webserver、dbserver、executorserver。 Azkaban是linkin的开源项目，开发语言为Java。 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一阅读全文

posted @ 2020-07-21 13:43 整合侠阅读(536) 评论(0) 推荐(0) 编辑

公告