CentOS7关闭防火墙
摘要:CentOS7防火墙命令有变化: CentOS7: systemctl status firewalld.service 查看防火墙状态 systemctl stop firewalld.service 本次访问关闭防火墙 systemctl disable firewalld.service 从下
阅读全文
posted @
2021-09-30 19:33
季昂
阅读(991)
推荐(0) 编辑
使用beeline工具连接Hive
摘要:####第一步:修改hadoop的hdfs-site.xml文件 在该文件中添加以下内容,开启HDFS的REST接口功能: <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> ####第二步:修改ha
阅读全文
posted @
2021-09-29 19:59
季昂
阅读(475)
推荐(0) 编辑
Hive 函数
摘要:内置函数 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 查看系统自带的函数 hive> show functions; 显示自带的函数的用法 hive> desc function upper; 详细显示自带的
阅读全文
posted @
2021-09-28 19:47
季昂
阅读(89)
推荐(0) 编辑
Hive 查询语法
摘要:Hive 查询语法 SELECT SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list [HAVING conditi
阅读全文
posted @
2021-09-27 22:15
季昂
阅读(99)
推荐(0) 编辑
Hive 的基本操作
摘要:###3.1 数据库操作 ####3.1.1 创建数据库 create database if not exists myhive; use myhive; 说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 <name>hive.metastore.warehouse
阅读全文
posted @
2021-09-26 20:11
季昂
阅读(121)
推荐(0) 编辑
数据仓库-Hive
摘要:## Hive 的基本概念 ### Hive 简介 ##### 什么是 Hive Hive是基于Hadoop的一个数据仓库工具,可以将**结构化的数据**文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了h
阅读全文
posted @
2021-09-25 22:11
季昂
阅读(59)
推荐(0) 编辑
自定义outputFormat
摘要:2.1 需求 现在有一些订单的评论数据,需求,将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容参见资料文件夹,其中数据第九个字段表示好评,中评,差评。0:好评,1:中评,2:差评 2.2 分析 程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不
阅读全文
posted @
2021-09-24 22:08
季昂
阅读(95)
推荐(0) 编辑
自定义InputFormat合并小文件
摘要:1.1 需求 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析 小文件的优化无非以下几种方式: 1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS 2、 在业务处理之前,在HDFS上使用map
阅读全文
posted @
2021-09-23 22:06
季昂
阅读(103)
推荐(0) 编辑
案例:求共同好友
摘要:需求分析 以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) ~~~javaA:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E
阅读全文
posted @
2021-09-22 22:00
季昂
阅读(95)
推荐(0) 编辑
Map端实现JOIN
摘要:概述 适用于关联表中有小表的情形. 使用分布式缓存,可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度 #### 实现步骤 先在mapper类中预先定义好小表,进行join 引入实际场
阅读全文
posted @
2021-09-21 19:34
季昂
阅读(96)
推荐(0) 编辑
Reduce端实现 JOIN
摘要:需求 > 假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程序来实现以下 SQL 查询运算>> ```sql> select a.id,a.date,b.name,b.category_id,b.price from t_order a left join
阅读全文
posted @
2021-09-20 08:14
季昂
阅读(60)
推荐(0) 编辑
MapReduce案例-流量统计(三)
摘要:需求三: 手机号码分区 在需求一的基础上,继续完善,将不同的手机号分到不同的数据文件的当中去,需要自定义分区来实现,这里我们自定义来模拟分区,将以下数字开头的手机号进行分开 135 开头数据到一个分区文件 136 开头数据到一个分区文件 137 开头数据到一个分区文件 其他分区 自定义分区 publ
阅读全文
posted @
2021-09-19 17:15
季昂
阅读(79)
推荐(0) 编辑
MapReduce案例-流量统计(二)
摘要:### 需求二: 上行流量倒序排序(递减排序) 分析,以需求一的输出数据作为排序的输入数据,自定义FlowBean,以FlowBean为map输出的key,以手机号作为Map输出的value,因为MapReduce程序会对Map阶段输出的key进行排序 ##### Step 1: 定义FlowBea
阅读全文
posted @
2021-09-18 10:02
季昂
阅读(96)
推荐(0) 编辑
MapReduce案例-流量统计(一)
摘要:### 需求一: 统计求和 统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入 ##### Step
阅读全文
posted @
2021-09-17 09:51
季昂
阅读(211)
推荐(0) 编辑
MapReduce 排序和序列化
摘要:序列化 (Serialization) 是指把结构化对象转化为字节流 * 反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的字节流转换为对象, 就要进行反序列
阅读全文
posted @
2021-09-16 08:59
季昂
阅读(91)
推荐(0) 编辑
你的灯还亮着吗——阅读笔记3
摘要:第五个故事,机关办事员和学校的教授:谁提出的问题?大家都有过类似的体会吧,去办事的时候,办事员跟你说今天缺个这,明天补个那,资料总是不全,还一本正经的跟你说:这是流程。中介应运而生,你交了钱,他们去帮你交资料。资料还是那些资料,流程上的问题一下子就消失了。 学校的考试题,鲁迅,___人,你填“男人”
阅读全文
posted @
2021-09-15 16:29
季昂
阅读(117)
推荐(0) 编辑
你的灯还亮着吗——阅读笔记2
摘要:第三个故事,各种各样的钱:什么是问题?打开钱包,掏出不同面额的钱看一看,你能看出什么来吗? 硬币有一角,五角,一元。一角钱最小,轻,呈银白色;五角钱稍大一点儿,重量差别感觉不到,呈黄铜色;一元钱最大,重,呈银白色。纸币从一角到一百元,面积越来越大,颜色各不相同。 为什么这样设计?第一,提高大多数人的
阅读全文
posted @
2021-09-14 20:06
季昂
阅读(122)
推荐(0) 编辑
你的灯还亮着吗——阅读笔记1
摘要:这本书的风格:几个故事,几个问题,几个特立独行的结局。 每个故事好像都有一个答案,可是,你偷懒的以为答案就是答案的时候,问题还没有结束。 第一个故事,等电梯:问题是什么?在办公楼里办公的员工抱怨等电梯时间太长。 这是个问题吗? 问题的定义:问题就是理想状态和现实状态之间的差别。对楼里的办公人员来说,
阅读全文
posted @
2021-09-13 17:05
季昂
阅读(68)
推荐(0) 编辑
WordCount
摘要:> 需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数 ##### Step 1. 数据格式准备 1. 创建一个新的文件 ```shell cd /export/servers vim wordcount.txt ```2. 向其中放入以下内容并保存 ```text hello,world
阅读全文
posted @
2021-09-12 16:46
季昂
阅读(117)
推荐(0) 编辑
MapReduce介绍
摘要:MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 * Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依
阅读全文
posted @
2021-09-11 16:08
季昂
阅读(142)
推荐(0) 编辑
HDFS 的 API 操作
摘要:先配置好Windows环境 然后导入 Maven 依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.5</ve
阅读全文
posted @
2021-09-10 21:57
季昂
阅读(85)
推荐(0) 编辑
HDFS的一些配置
摘要:HDFS限额配置1 文件个数限额 hdfs dfs -count -q -h /user/root/dir1 #查看配额信息 hdfs dfsadmin -setQuota 2 dir #设置N个限额数量,只能存放N-1个文件 hdfs dfsadmin -clrQuota /user/root/d
阅读全文
posted @
2021-09-09 16:43
季昂
阅读(248)
推荐(0) 编辑
HDFS命令
摘要:hdfs dfs -ls / hdfs dfs -put a.txt / #将文件复制到hdfs hdfs dfs -put /root/a.txt /root/ hdfs dfs -mkdir /dir1 hdfs dfs -mkdir -p /dir1/dir11 #递归创建文件夹 hdfs d
阅读全文
posted @
2021-09-08 15:55
季昂
阅读(165)
推荐(0) 编辑
分布式文件系统HDFS
摘要:HDFS采用master/slave架构。一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成。 Namenode是HDFS主节点,Datanode是HDFS从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。 HDFS中的文件在物理上是分块存储(block)的,块的
阅读全文
posted @
2021-09-07 18:06
季昂
阅读(85)
推荐(0) 编辑