随笔分类 -  大数据

摘要:一、概述 hadoop的namenode和secondarynamenode: 1. namenode负责 负责客户端请求的响应 元数据的管理(查询,修改) 2. 元数据管理 namenode对数据的管理采用了三种存储形式: 内存元数据(NameSystem) 磁盘元数据镜像文件 数据操作日志文件( 阅读全文
posted @ 2019-01-04 20:43 诗码者 阅读(1071) 评论(0) 推荐(0) 编辑
摘要:一、概述 公司使用是自己搭建的hadoop集群,版本2.7.3,最近发现出现了hdfs数据存储不均衡的现象,其中有一个datanode使用了65%,而有一个只使用了20%。hadoop集群使用的时间长了会出现这种数据不均衡的问题,当然hadoop提供了解决方案,就是使用balancer,默认进行的是 阅读全文
posted @ 2018-11-27 16:01 诗码者 阅读(6490) 评论(0) 推荐(1) 编辑
摘要:一、概述 sqoop是hive、hdfs、hbase等与RDMBS(mysql等)之间的沟通桥梁,主要通过JDBC与RDMBS进行交互。有两个版本sqoop1和sqoop2,sqoop1架构简单,使用非常方便(由于我使用的是sqoop1,所以本文主要介绍sqoop1),sqoop2是c/s架构,需要 阅读全文
posted @ 2018-04-16 18:34 诗码者 阅读(3283) 评论(0) 推荐(0) 编辑
摘要:1、说在前面 过完今天就放假回家了(挺高兴),于是提前检查了下个服务集群的状况,一切良好。正在我想着回家的时候突然发现手机上一连串的告警,spark任务执行失败,spark空间不足。我的心突然颤抖了一下,于是赶紧去看服务器的磁盘容量: #df -h 确实,还剩下6.8G,赶紧排查是什么占用了空间。发 阅读全文
posted @ 2018-02-12 13:55 诗码者 阅读(918) 评论(0) 推荐(0) 编辑
摘要:1、版本: logstash6.1.2、kafka-0.11、kafka-0.8.2、java1.8 Note: Logstash requires Java 8. Java 9 is not supported. Use the official Oracle distribution or an 阅读全文
posted @ 2018-01-29 18:35 诗码者 阅读(1441) 评论(0) 推荐(0) 编辑
摘要:1、通过垃圾箱恢复 使用这种方式的前提是在hdfs上面开启trash功能,默认是没有开启的。interval的值默认为0,单位是分钟。只需要在hadoop的配置文件core-site.xml中添加下面的内容: <!--Enable Trash --> <property> <name>fs.tras 阅读全文
posted @ 2018-01-15 17:19 诗码者 阅读(9284) 评论(0) 推荐(1) 编辑
摘要:一、概述 Superset使用Flask-Cache进行缓存,Flask-Cache支持redis,memcached,simplecache(内存),或本地文件系统)等缓存后端,如果你打算使用memcached,就需要使用memcached服务器作为后端,如果你打算使用redis,就需要安装pyt 阅读全文
posted @ 2017-12-13 16:40 诗码者 阅读(1957) 评论(0) 推荐(0) 编辑
摘要:1、hive的partition的相关查询,由于presto不支持vachar和int的自动转换,所以使用where的时候需要手动转换一下。 #select count(*) from userlogs where date=date'2017-12-11'; 阅读全文
posted @ 2017-12-12 17:48 诗码者 阅读(758) 评论(0) 推荐(0) 编辑
摘要:1、概述 superset大数据可视化的利器,深度集成durid,结合kylin、presto完成强大的大数据可视化功能,曾用名Panoramix、caravel。相比caravel它有个比较抢眼的功能SQL lab。具体可参考官方文档 2、安装 提前在10.0.2.245服务器上面部署好redis 阅读全文
posted @ 2017-12-11 15:25 诗码者 阅读(9206) 评论(0) 推荐(0) 编辑
摘要:1、概述 spark有两种调度模式:FIFO、FAIR。FIFO是先进先出,有很强的顺序性,只有前一个处理完成后才会去处理后进来的。FAIR是公平调度,通过配置进行控制优先执行的任务。spark默认使用FIFO模式,如果应用场景里面有很多比较大的查询、也有很多小的查询,此时建议使用FAIR模式可以先 阅读全文
posted @ 2017-11-28 15:48 诗码者 阅读(2078) 评论(0) 推荐(0) 编辑
摘要:1、概述 Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。presto可以通过使用分布式查询,可以快速高效的完成海量数据的查询。它是完全基于内存的,所以速度非常快。presto不仅可以查询HDFS,还可以查询RDMBS数据库。 具体的介绍可以参考官方:http 阅读全文
posted @ 2017-11-24 11:35 诗码者 阅读(6231) 评论(0) 推荐(0) 编辑
摘要:elasticdump备份elasticsearch里面的某个索引数据 1、 安装环境 需要node、npm、yarn # 去官方下载最新版本的nodejs #wget https://nodejs.org/dist/v6.10.2/node-v6.10.2-linux-x64.tar.xz --n 阅读全文
posted @ 2017-11-15 15:26 诗码者 阅读(580) 评论(0) 推荐(0) 编辑
摘要:Hdfs数据备份 一、概述 本文的hdfs数据备份是在两个集群之间进行的,如果使用snapshot在同一个集群上做备份,如果datanode损坏或误操作清空了数据,这样的备份就无法完全保证数据安全性。所以选择将hdfs里面的数据备份到另外的地方进行存储,选择hadoop的分布式复制工具distcp。 阅读全文
posted @ 2017-11-14 19:43 诗码者 阅读(5948) 评论(0) 推荐(0) 编辑
摘要:kafka集群依赖于zookeeper,所以需要先搭建zookeeper集群,kafka默认自带了内建的zookeeper,建议使用自己外搭建的zookeeper,这样比较灵活并且解耦服务,同时也可以让其他需要zookeeper的服务使用。注意kafka-2.11-0.11版本与zookeeper- 阅读全文
posted @ 2017-11-07 18:51 诗码者 阅读(916) 评论(0) 推荐(0) 编辑
摘要:1、首先添加hdfs的节点,将安装包上传到服务器,设置好环境变量。配置文件按之前spark集群搭建的那里进行修改。 设置完成后,要对新节点新型格式化: # hdfs dfs namenode -format 生成公钥、私钥,配置免密登录: ssh-keygen -t rsa 一直回车就好了,会在用户 阅读全文
posted @ 2017-11-06 20:34 诗码者 阅读(797) 评论(0) 推荐(0) 编辑
摘要:一、spark启动有standalong、yarn、cluster,具体的他们之间的区别这里不在赘述,请参考官网。本文采用的是standalong模式进行搭建及将接使用。 1、首先去官网下载需要的spark版本: http://spark.apache.org/downloads.html 本例使用 阅读全文
posted @ 2017-11-06 20:01 诗码者 阅读(340) 评论(0) 推荐(0) 编辑
摘要:Kafka消息重新发送 1、 使用kafka消息队列做消息的发布、订阅,如果consumer端消费出问题,导致数据并没有消费,此时不需要担心,数据并不会立刻丢失,kafka会把数据在服务器的磁盘上默认存储7天,或者自己指定有两种方式:1)指定时间,log.retention.hours=168;2) 阅读全文
posted @ 2017-11-05 17:52 诗码者 阅读(5983) 评论(0) 推荐(0) 编辑
摘要:Spark报错处理 分析:出现这个情况的原因是spark启动的时候设置的是hostname启动的,导致访问的时候DNS不能解析主机名导致。 问题解决: 第一种方法:确保URL是spark://服务器ip:7077,而不是spark://hostname:7077;启动的时候指定-h ip地址 第二种 阅读全文
posted @ 2017-10-27 17:01 诗码者 阅读(8956) 评论(0) 推荐(0) 编辑
摘要:Kafka报错处理 1、 记一次kafka报错处理 Kafka停止后,再启动的时候发生了报错: [2017-10-27 09:43:18,313] INFO Recovering unflushed segment 15000679 in log mytest-0. (kafka.log.Log) 阅读全文
posted @ 2017-10-27 16:29 诗码者 阅读(8802) 评论(0) 推荐(0) 编辑
摘要:KafkaOffsetMonitor监控kafka 1、 KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具,其配置和使用特别的方便。源项目Github地址为:https://github.com/quantifind/KafkaOffset 阅读全文
posted @ 2017-10-26 10:07 诗码者 阅读(880) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示