上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页
摘要: 1 你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。 2 Flume的Source,Sink,Channel的作用?你们Source是什么类型?1、作用 (1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift 阅读全文
posted @ 2019-12-14 19:10 玩转大数据 阅读(2134) 评论(0) 推荐(0) 编辑
摘要: 1.1 Sqoop 在工作中的定位是会用就行1.1.1 Sqoop导入数据到hdfs中的参数 /opt/module/sqoop/bin/sqoop import \ --connect \ # 特殊的jdbc连接的字符串 --username \ --password \ --target-dir 阅读全文
posted @ 2019-12-14 19:03 玩转大数据 阅读(2566) 评论(0) 推荐(0) 编辑
摘要: 一、.hdfs写文件的步骤 答案: (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请DataNode (4)NN向Client返回DN1,DN2,DN3 (5)Client向DN1,DN2,DN3申 阅读全文
posted @ 2019-12-14 18:59 玩转大数据 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 1、多线程有什么用? 一个可能在很多人看来很扯淡的一个问题:我会用多线程就好了,还管它有什么用?在我看来,这个回答更扯淡。所谓"知其然知其所以然","会用"只是"知其然","为什么用"才是"知其所以然",只有达到"知其然知其所以然"的程度才可以说是把一个知识点运用自如。OK,下面说说我对这个问题的看 阅读全文
posted @ 2019-12-14 18:21 玩转大数据 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfi 阅读全文
posted @ 2019-12-14 15:05 玩转大数据 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤,及其关键字 假设student.txt 有以下几列:id,name,gender三列 1-创建数据库 create database student_info; 2-创建hive表 student create 阅读全文
posted @ 2019-12-14 15:04 玩转大数据 阅读(1292) 评论(0) 推荐(0) 编辑
摘要: Hive动态分区参数配置 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 使用动态分区表必须配置的 阅读全文
posted @ 2019-12-14 15:03 玩转大数据 阅读(3984) 评论(0) 推荐(0) 编辑
摘要: Hive向程序中传递变量的方式 暴力替换 字符串替换 正则替换 模板引擎 系统环境变量 shell环境变量:${env:varname} system系统变量:${system:varname} hive 命令参数 hivevar方式:${hivevar:varname} hiveconf方式:${ 阅读全文
posted @ 2019-12-14 15:01 玩转大数据 阅读(3117) 评论(0) 推荐(0) 编辑
摘要: Hive的优化策略大致分为:配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数据倾斜解决方案。 回答的时候需要,需要准确的说出具体的配置参数,准确的说出具体的配置参数,这是一个深刻的教训。 配置优化 1-Fetch抓取配置 Fetch抓取是指,Hive中对某些情况 阅读全文
posted @ 2019-12-14 14:59 玩转大数据 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜产生的原因 数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜 原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会 阅读全文
posted @ 2019-12-14 14:58 玩转大数据 阅读(8149) 评论(0) 推荐(1) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页