01 2020 档案

摘要:记录一下日志采集框架flume的相关内容,flume是由Cloudera开发,后面贡献给了Apache,是一个分布式的、稳定的,用于日志采集、汇聚和传输的系统,现在用的一般是1.x版本,老版本的因为用得少暂时不考虑。 基本概念 包括agent和event。 Agent 以下是数据流模型图,sourc 阅读全文
posted @ 2020-01-22 21:44 斐波那切 阅读(1068) 评论(0) 推荐(0) 编辑
摘要:在使用flume采集日志写入到hdfs时,用到了lzo压缩算法,这个算法将让保存的文件缩小为原文件的三分之一。由于此压缩算法不是hadoop默认的,需要另外安装,下面记录下,全文主要参考文末博文完成。 编译安装lzo和lzop 注意,有多少个节点,就安装多个少!注意,有多少个节点,就安装多个少!注意 阅读全文
posted @ 2020-01-20 13:58 斐波那切 阅读(1557) 评论(0) 推荐(0) 编辑
摘要:接下来添加部分HBase优化相关的选择,先添加部分,后续实际工作中再补充完善。优化主要针对外界条件以及自身条件。 外界条件 外界条件包括硬件配置、GC、JVM等。 配置内存 HBase是吃内存的,很多地方都有涉及到,如blockcache读缓存,memStore写缓存,LSM树状结构和日志记录机制等 阅读全文
posted @ 2020-01-16 20:28 斐波那切 阅读(286) 评论(0) 推荐(0) 编辑
摘要:接下来记录一下HBase存储原理相关的知识,理解尚浅,后续再补充。 索引 hbase中没有索引,但是mysql有,区别在于mysql是行级存储,hbase是列级存储,索引对行级存储有意义,对于列级存储意义不大。 如下图所示,不管是mysql还是hbase,最终数据都会落地成文件,当给行级存储建立索引 阅读全文
posted @ 2020-01-15 23:53 斐波那切 阅读(433) 评论(0) 推荐(0) 编辑
摘要:下面记录一下Hbase的简单命令,以及相关的API操作,Hbase虽然也是一种数据库,但是基本命令和MySQL不一样。 基本概念 Hbase因为是列存储,因此出现了一些新的概念,分别是行键RowKey、列族Column Family、列Column、单元Cell和命名空间NameSpace。大部分概 阅读全文
posted @ 2020-01-11 15:19 斐波那切 阅读(1170) 评论(0) 推荐(0) 编辑
摘要:使用kafka和sparkstreaming整合时,IDEA运行程序报错"com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.1",初步看是版本不兼容,但是版本后面确认没有问题, 阅读全文
posted @ 2020-01-05 08:18 斐波那切 阅读(4460) 评论(0) 推荐(0) 编辑
摘要:HBase是大数据中的数据库,是一种列级存储的数据库,支持秒级查询,官网称能存储10亿行*100万列的数据,下面安装记录一下,基于centos6,后面查看用。 安装hadoop hbase存储的数据在hadoop中,因此需要先安装hadoop,可以安装伪分布式就可以,用作学习用,参考 https:/ 阅读全文
posted @ 2020-01-01 22:44 斐波那切 阅读(296) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示