2019 年 12月 14 日随笔档案 - 玩转大数据

2019年12月14日

摘要： 1 你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。 2 Flume的Source，Sink，Channel的作用？你们Source是什么类型？1、作用（1）Source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括avro、thrift 阅读全文

posted @ 2019-12-14 19:10 玩转大数据阅读(2160) 评论(0) 推荐(0) 编辑

sqoop面试题

摘要： 1.1 Sqoop 在工作中的定位是会用就行1.1.1 Sqoop导入数据到hdfs中的参数 /opt/module/sqoop/bin/sqoop import \ --connect \ # 特殊的jdbc连接的字符串 --username \ --password \ --target-dir 阅读全文

posted @ 2019-12-14 19:03 玩转大数据阅读(2577) 评论(0) 推荐(0) 编辑

大数据面试题

摘要：一、.hdfs写文件的步骤答案： (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请DataNode (4)NN向Client返回DN1,DN2,DN3 (5)Client向DN1,DN2,DN3申阅读全文

posted @ 2019-12-14 18:59 玩转大数据阅读(188) 评论(0) 推荐(0) 编辑

java面试题

摘要： 1、多线程有什么用？一个可能在很多人看来很扯淡的一个问题：我会用多线程就好了，还管它有什么用？在我看来，这个回答更扯淡。所谓"知其然知其所以然"，"会用"只是"知其然"，"为什么用"才是"知其所以然"，只有达到"知其然知其所以然"的程度才可以说是把一个知识点运用自如。OK，下面说说我对这个问题的看阅读全文

posted @ 2019-12-14 18:21 玩转大数据阅读(269) 评论(0) 推荐(0) 编辑

Hive分析窗口函数

摘要：数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfi 阅读全文

posted @ 2019-12-14 15:05 玩转大数据阅读(656) 评论(0) 推荐(0) 编辑

Hive手写SQL案例

摘要： 1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤，及其关键字假设student.txt 有以下几列：id,name,gender三列 1-创建数据库 create database student_info; 2-创建hive表 student create 阅读全文

posted @ 2019-12-14 15:04 玩转大数据阅读(1319) 评论(0) 推荐(0) 编辑

Hive动态分区

摘要： Hive动态分区参数配置往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。使用动态分区表必须配置的阅读全文

posted @ 2019-12-14 15:03 玩转大数据阅读(4418) 评论(0) 推荐(0) 编辑

向Hive中传入变量的方式

摘要： Hive向程序中传递变量的方式暴力替换字符串替换正则替换模板引擎系统环境变量 shell环境变量：${env:varname} system系统变量：${system:varname} hive 命令参数 hivevar方式：${hivevar:varname} hiveconf方式：${ 阅读全文

posted @ 2019-12-14 15:01 玩转大数据阅读(3255) 评论(0) 推荐(0) 编辑

Hive优化策略

摘要： Hive的优化策略大致分为：配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数据倾斜解决方案。回答的时候需要，需要准确的说出具体的配置参数，准确的说出具体的配置参数，这是一个深刻的教训。配置优化 1-Fetch抓取配置 Fetch抓取是指，Hive中对某些情况阅读全文

posted @ 2019-12-14 14:59 玩转大数据阅读(646) 评论(0) 推荐(0) 编辑

Hive数据倾斜的原因及主要解决方法

摘要：数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜原因：分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；对一些类型统计的时候某种类型的数据量特别多，其他的数据类型特别少。当按照类型进行group by的时候，会阅读全文

posted @ 2019-12-14 14:58 玩转大数据阅读(8201) 评论(0) 推荐(1) 编辑

Hive设置配置参数的方法，列举8个常用配置

摘要： Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法，分别是：（1）、修改${HIVE_HOME}/conf/hive-site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。方法一：hive-site.xml配置参数在Hive中，所有的默认配置阅读全文

posted @ 2019-12-14 14:57 玩转大数据阅读(4767) 评论(0) 推荐(0) 编辑

简述UDF/UDAF/UDTF是什么，各自解决问题及应用场景

摘要： UDF User-Defined-Function 自定义函数、一进一出；背景系统内置函数无法解决实际的业务问题，需要开发者自己编写函数实现自身的业务实现诉求。应用场景非常多，面临的业务不同导致个性化实现很多，故udf很需要。意义函数扩展得到解决，极大丰富了可定制化的业务需求。 IO要求阅读全文

posted @ 2019-12-14 14:56 玩转大数据阅读(8857) 评论(0) 推荐(0) 编辑

Hive常用的10个系统函数及作用

摘要：聚合函数函数处理的数据粒度为多条记录。 sum()—求和 count()—求数据量 avg()—求平均直 distinct—求不同值数 min—求最小值 max—求最人值分析函数 Analytics functions RANK ROW_NUMBER DENSE_RANK CUME_DIST P 阅读全文

posted @ 2019-12-14 14:55 玩转大数据阅读(1161) 评论(0) 推荐(0) 编辑

Hive常用命令及作用

摘要： 1-创建表 -- 内部表 create table aa(col1 string,col2 int) partitioned by(statdate int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'； -- 外部表 create external 阅读全文

posted @ 2019-12-14 14:54 玩转大数据阅读(673) 评论(0) 推荐(0) 编辑

Hive视图如何创建、特点及应用场景

摘要： Hive视图特点 View是逻辑存在，Hive暂不支持物化视图(1.0.3) View只读，不支持LOAD/INSERT/ALTER。需要改变View定义，可以是用Alter View View内可能包含ORDER BY/LIMIT语句，假如一个针对view的查询也包含这些语句，则view中的语句阅读全文

posted @ 2019-12-14 14:52 玩转大数据阅读(10507) 评论(0) 推荐(1) 编辑

Hive内外表的区分方法及内外部差异

摘要： Hive内外部区分方法查看hive元数据：进入mysql中hive元数据库，查看TBLS表，查看对应的表名和表类型；在hive-cli界面：desc extended tablename，查看TableType，一般在展示结果的最后显示；在hive-cli界面：desc formatted t 阅读全文

posted @ 2019-12-14 14:51 玩转大数据阅读(1401) 评论(0) 推荐(0) 编辑

Hive支持的文件格式和压缩格式及各自特点

摘要： Hive中的文件格式 1-TEXTFILE 文本格式，Hive的默认格式，数据不压缩，磁盘开销大、数据解析开销大。对应的hive API为：org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTex 阅读全文

posted @ 2019-12-14 14:50 玩转大数据阅读(5079) 评论(0) 推荐(0) 编辑

Hive的数据模型及各模块的应用场景

摘要： Hive的数据模型 Hive数据模型.png 数据模型组成及应用场景 Hive的数据模型主要有：database、table、partition、bucket四部分；数据模型之database database：相当于关系型数据库中的命名空间，作用是将数据库应用隔离到不同的数据库模式中，hive提阅读全文

posted @ 2019-12-14 14:49 玩转大数据阅读(1618) 评论(0) 推荐(0) 编辑

Hive架构原理

摘要：什么是Hive Hive是由Facebook开源用于解决海量结构化日志的数据统计；Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能，底层计算引擎默认为Hadoop的MapReduce（本质是将sql转化成mapreduce程序），可以将引擎更阅读全文

posted @ 2019-12-14 14:47 玩转大数据阅读(531) 评论(0) 推荐(0) 编辑

Hive与HBase的区别

摘要：从使用方面讲 Hive是一个构建在Hadoop平台上的数据仓库，可以将结构化的数据文件映射为一张数据库表。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化成Map/Reduce。 HBase 是基于HDFS平台的Key/Value类型的NoSql 阅读全文

posted @ 2019-12-14 14:45 玩转大数据阅读(1024) 评论(0) 推荐(0) 编辑

公告