2021 年 9月随笔档案 - 季昂

CentOS7关闭防火墙

摘要：CentOS7防火墙命令有变化： CentOS7： systemctl status firewalld.service 查看防火墙状态 systemctl stop firewalld.service 本次访问关闭防火墙 systemctl disable firewalld.service 从下阅读全文

posted @ 2021-09-30 19:33 季昂阅读(991) 评论(0) 推荐(0)

使用beeline工具连接Hive

摘要：####第一步:修改hadoop的hdfs-site.xml文件在该文件中添加以下内容,开启HDFS的REST接口功能: <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> ####第二步:修改ha 阅读全文

posted @ 2021-09-29 19:59 季昂阅读(478) 评论(0) 推荐(0)

Hive 函数

摘要：内置函数 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 查看系统自带的函数 hive> show functions; 显示自带的函数的用法 hive> desc function upper; 详细显示自带的阅读全文

posted @ 2021-09-28 19:47 季昂阅读(92) 评论(0) 推荐(0)

Hive 查询语法

摘要：Hive 查询语法 SELECT SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list [HAVING conditi 阅读全文

posted @ 2021-09-27 22:15 季昂阅读(101) 评论(0) 推荐(0)

Hive 的基本操作

摘要：###3.1 数据库操作 ####3.1.1 创建数据库 create database if not exists myhive; use myhive; 说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 <name>hive.metastore.warehouse 阅读全文

posted @ 2021-09-26 20:11 季昂阅读(123) 评论(0) 推荐(0)

数据仓库-Hive

摘要：## Hive 的基本概念 ### Hive 简介 ##### 什么是 Hive Hive是基于Hadoop的一个数据仓库工具，可以将**结构化的数据**文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了h 阅读全文

posted @ 2021-09-25 22:11 季昂阅读(59) 评论(0) 推荐(0)

自定义outputFormat

摘要：2.1 需求现在有一些订单的评论数据，需求，将订单的好评与差评进行区分开来，将最终的数据分开到不同的文件夹下面去，数据内容参见资料文件夹，其中数据第九个字段表示好评，中评，差评。0：好评，1：中评，2：差评 2.2 分析程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不阅读全文

posted @ 2021-09-24 22:08 季昂阅读(96) 评论(0) 推荐(0)

自定义InputFormat合并小文件

摘要：1.1 需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式： 1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS 2、在业务处理之前，在HDFS上使用map 阅读全文

posted @ 2021-09-23 22:06 季昂阅读(103) 评论(0) 推荐(0)

案例:求共同好友

摘要：需求分析以下是qq的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的） ~~~javaA:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E 阅读全文

posted @ 2021-09-22 22:00 季昂阅读(96) 评论(0) 推荐(0)

Map端实现JOIN

摘要：概述适用于关联表中有小表的情形. 使用分布式缓存,可以将小表分发到所有的map节点，这样，map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果，可以大大提高join操作的并发度，加快处理速度 #### 实现步骤先在mapper类中预先定义好小表，进行join 引入实际场阅读全文

posted @ 2021-09-21 19:34 季昂阅读(98) 评论(0) 推荐(0)

Reduce端实现 JOIN

摘要：需求 > 假如数据量巨大，两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程序来实现以下 SQL 查询运算>> ```sql> select a.id,a.date,b.name,b.category_id,b.price from t_order a left join 阅读全文

posted @ 2021-09-20 08:14 季昂阅读(60) 评论(0) 推荐(0)

MapReduce案例-流量统计(三)

摘要：需求三: 手机号码分区在需求一的基础上，继续完善，将不同的手机号分到不同的数据文件的当中去，需要自定义分区来实现，这里我们自定义来模拟分区，将以下数字开头的手机号进行分开 135 开头数据到一个分区文件 136 开头数据到一个分区文件 137 开头数据到一个分区文件其他分区自定义分区 publ 阅读全文

posted @ 2021-09-19 17:15 季昂阅读(80) 评论(0) 推荐(0)

MapReduce案例-流量统计(二)

摘要：### 需求二: 上行流量倒序排序（递减排序）分析，以需求一的输出数据作为排序的输入数据，自定义FlowBean,以FlowBean为map输出的key，以手机号作为Map输出的value，因为MapReduce程序会对Map阶段输出的key进行排序 ##### Step 1: 定义FlowBea 阅读全文

posted @ 2021-09-18 10:02 季昂阅读(96) 评论(0) 推荐(0)

MapReduce案例-流量统计(一)

摘要：### 需求一: 统计求和统计每个手机号的上行数据包总和，下行数据包总和，上行总流量之和，下行总流量之和分析：以手机号码作为key值，上行流量，下行流量，上行总流量，下行总流量四个字段作为value值，然后以这个key，和value作为map阶段的输出，reduce阶段的输入 ##### Step 阅读全文

posted @ 2021-09-17 09:51 季昂阅读(213) 评论(0) 推荐(0)

MapReduce 排序和序列化

摘要：序列化 (Serialization) 是指把结构化对象转化为字节流 * 反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的字节流转换为对象, 就要进行反序列阅读全文

posted @ 2021-09-16 08:59 季昂阅读(95) 评论(0) 推荐(0)

你的灯还亮着吗——阅读笔记3

摘要：第五个故事，机关办事员和学校的教授:谁提出的问题？大家都有过类似的体会吧，去办事的时候，办事员跟你说今天缺个这，明天补个那，资料总是不全，还一本正经的跟你说:这是流程。中介应运而生，你交了钱，他们去帮你交资料。资料还是那些资料，流程上的问题一下子就消失了。学校的考试题，鲁迅，___人，你填“男人” 阅读全文

posted @ 2021-09-15 16:29 季昂阅读(118) 评论(0) 推荐(0)

你的灯还亮着吗——阅读笔记2

摘要：第三个故事，各种各样的钱:什么是问题？打开钱包，掏出不同面额的钱看一看，你能看出什么来吗？硬币有一角，五角，一元。一角钱最小，轻，呈银白色；五角钱稍大一点儿，重量差别感觉不到，呈黄铜色；一元钱最大，重，呈银白色。纸币从一角到一百元，面积越来越大，颜色各不相同。为什么这样设计？第一，提高大多数人的阅读全文

posted @ 2021-09-14 20:06 季昂阅读(122) 评论(0) 推荐(0)

你的灯还亮着吗——阅读笔记1

摘要：这本书的风格:几个故事，几个问题，几个特立独行的结局。每个故事好像都有一个答案，可是，你偷懒的以为答案就是答案的时候，问题还没有结束。第一个故事，等电梯:问题是什么？在办公楼里办公的员工抱怨等电梯时间太长。这是个问题吗？问题的定义:问题就是理想状态和现实状态之间的差别。对楼里的办公人员来说，阅读全文

posted @ 2021-09-13 17:05 季昂阅读(68) 评论(0) 推荐(0)

WordCount

摘要：> 需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数 ##### Step 1. 数据格式准备 1. 创建一个新的文件 ```shell cd /export/servers vim wordcount.txt ```2. 向其中放入以下内容并保存 ```text hello,world 阅读全文

posted @ 2021-09-12 16:46 季昂阅读(119) 评论(0) 推荐(0)

MapReduce介绍

摘要：MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 * Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依阅读全文

posted @ 2021-09-11 16:08 季昂阅读(148) 评论(0) 推荐(0)

HDFS 的 API 操作

摘要：先配置好Windows环境然后导入 Maven 依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.5</ve 阅读全文

posted @ 2021-09-10 21:57 季昂阅读(86) 评论(0) 推荐(0)

HDFS的一些配置

摘要：HDFS限额配置1 文件个数限额 hdfs dfs -count -q -h /user/root/dir1 #查看配额信息 hdfs dfsadmin -setQuota 2 dir #设置N个限额数量,只能存放N-1个文件 hdfs dfsadmin -clrQuota /user/root/d 阅读全文

posted @ 2021-09-09 16:43 季昂阅读(249) 评论(0) 推荐(0)

HDFS命令

摘要：hdfs dfs -ls / hdfs dfs -put a.txt / #将文件复制到hdfs hdfs dfs -put /root/a.txt /root/ hdfs dfs -mkdir /dir1 hdfs dfs -mkdir -p /dir1/dir11 #递归创建文件夹 hdfs d 阅读全文

posted @ 2021-09-08 15:55 季昂阅读(170) 评论(0) 推荐(0)

分布式文件系统HDFS

摘要：HDFS采用master/slave架构。一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成。 Namenode是HDFS主节点，Datanode是HDFS从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。 HDFS中的文件在物理上是分块存储(block)的，块的阅读全文

posted @ 2021-09-07 18:06 季昂阅读(86) 评论(0) 推荐(0)

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜