大数据 - 随笔分类 - 诗码者

hadoop之editlogs和fsimage

摘要：一、概述 hadoop的namenode和secondarynamenode： 1. namenode负责负责客户端请求的响应元数据的管理（查询，修改） 2. 元数据管理 namenode对数据的管理采用了三种存储形式：内存元数据(NameSystem) 磁盘元数据镜像文件数据操作日志文件（阅读全文

posted @ 2019-01-04 20:43 诗码者阅读(1089) 评论(0) 推荐(0)

HDFS集群数据不均衡处理

摘要：一、概述公司使用是自己搭建的hadoop集群，版本2.7.3，最近发现出现了hdfs数据存储不均衡的现象，其中有一个datanode使用了65%，而有一个只使用了20%。hadoop集群使用的时间长了会出现这种数据不均衡的问题，当然hadoop提供了解决方案，就是使用balancer，默认进行的是阅读全文

posted @ 2018-11-27 16:01 诗码者阅读(6596) 评论(0) 推荐(1)

sqoop部署及使用

摘要：一、概述 sqoop是hive、hdfs、hbase等与RDMBS(mysql等)之间的沟通桥梁，主要通过JDBC与RDMBS进行交互。有两个版本sqoop1和sqoop2，sqoop1架构简单，使用非常方便(由于我使用的是sqoop1，所以本文主要介绍sqoop1)，sqoop2是c/s架构，需要阅读全文

posted @ 2018-04-16 18:34 诗码者阅读(3329) 评论(0) 推荐(0)

spark work目录处理 And HDFS空间都去哪了？

摘要：1、说在前面过完今天就放假回家了（挺高兴），于是提前检查了下个服务集群的状况，一切良好。正在我想着回家的时候突然发现手机上一连串的告警，spark任务执行失败，spark空间不足。我的心突然颤抖了一下，于是赶紧去看服务器的磁盘容量： #df -h 确实，还剩下6.8G，赶紧排查是什么占用了空间。发阅读全文

posted @ 2018-02-12 13:55 诗码者阅读(944) 评论(0) 推荐(0)

logstash与kafka消息传输<一>

摘要：1、版本： logstash6.1.2、kafka-0.11、kafka-0.8.2、java1.8 Note: Logstash requires Java 8. Java 9 is not supported. Use the official Oracle distribution or an 阅读全文

posted @ 2018-01-29 18:35 诗码者阅读(1467) 评论(0) 推荐(0)

HDFS恢复误删操作的方法

摘要：1、通过垃圾箱恢复使用这种方式的前提是在hdfs上面开启trash功能，默认是没有开启的。interval的值默认为0，单位是分钟。只需要在hadoop的配置文件core-site.xml中添加下面的内容：  <property> <name>fs.tras 阅读全文

posted @ 2018-01-15 17:19 诗码者阅读(9367) 评论(0) 推荐(1)

superset----缓存之redis

摘要：一、概述 Superset使用Flask-Cache进行缓存，Flask-Cache支持redis，memcached，simplecache（内存），或本地文件系统）等缓存后端，如果你打算使用memcached，就需要使用memcached服务器作为后端，如果你打算使用redis，就需要安装pyt 阅读全文

posted @ 2017-12-13 16:40 诗码者阅读(2102) 评论(0) 推荐(0)

superset--presto sql

摘要：1、hive的partition的相关查询，由于presto不支持vachar和int的自动转换，所以使用where的时候需要手动转换一下。 #select count(*) from userlogs where date=date'2017-12-11'; 阅读全文

posted @ 2017-12-12 17:48 诗码者阅读(779) 评论(0) 推荐(0)

大数据之superset

摘要：1、概述 superset大数据可视化的利器，深度集成durid，结合kylin、presto完成强大的大数据可视化功能，曾用名Panoramix、caravel。相比caravel它有个比较抢眼的功能SQL lab。具体可参考官方文档 2、安装提前在10.0.2.245服务器上面部署好redis 阅读全文

posted @ 2017-12-11 15:25 诗码者阅读(9278) 评论(0) 推荐(0)

spark-调度策略之FAIR

摘要：1、概述 spark有两种调度模式：FIFO、FAIR。FIFO是先进先出，有很强的顺序性，只有前一个处理完成后才会去处理后进来的。FAIR是公平调度，通过配置进行控制优先执行的任务。spark默认使用FIFO模式，如果应用场景里面有很多比较大的查询、也有很多小的查询，此时建议使用FAIR模式可以先阅读全文

posted @ 2017-11-28 15:48 诗码者阅读(2136) 评论(0) 推荐(0)

大数据之presto

摘要：1、概述 Presto是一个分布式SQL查询引擎，用于查询分布在一个或多个不同数据源中的大数据集。presto可以通过使用分布式查询，可以快速高效的完成海量数据的查询。它是完全基于内存的，所以速度非常快。presto不仅可以查询HDFS，还可以查询RDMBS数据库。具体的介绍可以参考官方：http 阅读全文

posted @ 2017-11-24 11:35 诗码者阅读(6308) 评论(0) 推荐(0)

elasticdump

摘要：elasticdump备份elasticsearch里面的某个索引数据 1、安装环境需要node、npm、yarn # 去官方下载最新版本的nodejs #wget https://nodejs.org/dist/v6.10.2/node-v6.10.2-linux-x64.tar.xz --n 阅读全文

posted @ 2017-11-15 15:26 诗码者阅读(590) 评论(0) 推荐(0)

Hdfs数据备份

摘要：Hdfs数据备份一、概述本文的hdfs数据备份是在两个集群之间进行的，如果使用snapshot在同一个集群上做备份，如果datanode损坏或误操作清空了数据，这样的备份就无法完全保证数据安全性。所以选择将hdfs里面的数据备份到另外的地方进行存储，选择hadoop的分布式复制工具distcp。阅读全文

posted @ 2017-11-14 19:43 诗码者阅读(6013) 评论(0) 推荐(0)

kafka-2.11-0.11集群搭建

摘要：kafka集群依赖于zookeeper，所以需要先搭建zookeeper集群，kafka默认自带了内建的zookeeper，建议使用自己外搭建的zookeeper，这样比较灵活并且解耦服务，同时也可以让其他需要zookeeper的服务使用。注意kafka-2.11-0.11版本与zookeeper- 阅读全文

posted @ 2017-11-07 18:51 诗码者阅读(958) 评论(0) 推荐(0)

spark、hadoop集群添加节点

摘要：1、首先添加hdfs的节点，将安装包上传到服务器，设置好环境变量。配置文件按之前spark集群搭建的那里进行修改。设置完成后，要对新节点新型格式化： # hdfs dfs namenode -format 生成公钥、私钥，配置免密登录： ssh-keygen -t rsa 一直回车就好了，会在用户阅读全文

posted @ 2017-11-06 20:34 诗码者阅读(819) 评论(0) 推荐(0)

spark集群构建

摘要：一、spark启动有standalong、yarn、cluster，具体的他们之间的区别这里不在赘述，请参考官网。本文采用的是standalong模式进行搭建及将接使用。 1、首先去官网下载需要的spark版本： http://spark.apache.org/downloads.html 本例使用阅读全文

posted @ 2017-11-06 20:01 诗码者阅读(360) 评论(0) 推荐(0)

Kafka消息重新发送

摘要：Kafka消息重新发送 1、使用kafka消息队列做消息的发布、订阅，如果consumer端消费出问题，导致数据并没有消费，此时不需要担心，数据并不会立刻丢失，kafka会把数据在服务器的磁盘上默认存储7天，或者自己指定有两种方式：1）指定时间，log.retention.hours=168；2）阅读全文

posted @ 2017-11-05 17:52 诗码者阅读(6057) 评论(0) 推荐(0)

spark报错处理

摘要：Spark报错处理分析：出现这个情况的原因是spark启动的时候设置的是hostname启动的，导致访问的时候DNS不能解析主机名导致。问题解决：第一种方法：确保URL是spark://服务器ip:7077，而不是spark://hostname:7077；启动的时候指定-h ip地址第二种阅读全文

posted @ 2017-10-27 17:01 诗码者阅读(9359) 评论(0) 推荐(0)

kafka报错处理

摘要：Kafka报错处理 1、记一次kafka报错处理 Kafka停止后，再启动的时候发生了报错： [2017-10-27 09:43:18,313] INFO Recovering unflushed segment 15000679 in log mytest-0. (kafka.log.Log) 阅读全文

posted @ 2017-10-27 16:29 诗码者阅读(8953) 评论(0) 推荐(0)

KafkaOffsetMonitor监控kafka

摘要：KafkaOffsetMonitor监控kafka 1、　KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具，其配置和使用特别的方便。源项目Github地址为：https://github.com/quantifind/KafkaOffset 阅读全文

posted @ 2017-10-26 10:07 诗码者阅读(891) 评论(0) 推荐(0)

诗码者

随笔分类 - 大数据

公告