01 2019 档案
Kafka笔记7(构建数据管道)
摘要:构建数据管道需要考虑的问题: 及时性 可靠性 高吞吐量和动态吞吐量 数据格式 转换 安全性 故障处理能力 耦合性与灵活性 数据管道的构建分为2个阵营,ETL和ELT ETL:提取-转换-加载 当数据流经管道时,数据管道负责处理他们 ELT:提取-加载-转换:数据管道只做少量的转换,高保真 数据管道最
阅读全文
Kafka笔记6(数据传递的可靠性)
摘要:Kafka保证分区消息的顺序,“先入先出” 只有当消息被写入分区的所有副本时,才被认为已提交的 只要有一个副本是活跃的,已提交的消息就不会丢失 消费者只能读取已经提交的消息 如果一个或多个副本在同步/非同步之间状态快速切换,说明集群内出现问题,通常是JAVA不恰当的垃圾回收配置导致的 broker安
阅读全文
Kafka笔记5(内部工作原理)
摘要:集群成员关系: Kafka使用zookeeper维护集群成员信息,每个broker拥有唯一标识符,这个标识符可以在配置文件里指定也可以自动生成,会注册到Zookeeper的/brokers/ids路径下 控制器: 本质就是一个broker,但是还负责分区首领选举 Kafka使用zookeeper的临
阅读全文
Kafka笔记4(消费者)
摘要:消费者和消费群组: Kafka消费者从属于消费者群组,一个群组里的消费者订阅的是同一个主题,每个消费者接收主题的一部分分区消息 消费者的数量不要超过主题分区的数量,多余的消费者只会被闲置 一个主题可以被多个消费群组使用,消费者群组之间互不影响 当一个消费者加入群组时,他读取的数据是原本由其他消费者读
阅读全文
kafka笔记3(生产者)
摘要:创建Kafka生产者: Kafka生产者有3个必选属性: bootstrap.servers broker地址清单,格式为host:port ,清单中不必包含所有broker,但至少2个 key.serializer = org.apache.kafka.common.serialization.S
阅读全文
Kafka笔记2(安装)
摘要:1.安装java 2.安装zookeeper 3.安装kafka Broker 测试:发布消息 测试:读取消息 4,broker配置 常规配置: broker.id: 默认0 每个broker都需要一个标识符,使用broker.id标识,在kafka集群里必须唯一 port 默认监听9092端口,使
阅读全文
Kafka笔记1(初步认识)
摘要:Kafka 被称为“分布式提交日志”或“分布式流平台” 文件系统或数据库提交日志用来提供所有事务的持久记录,通过重放这些日志重建系统状态,同时Kafka数据是按照一定顺序持久化保存的,可以按需读取 Kafka数据分布在整个系统里,具有数据保障和性能伸缩能力 Kafka数据单元称为消息,类似于数据库里
阅读全文
HBase笔记6 过滤器
摘要:过滤器 过滤器是GET或者SCAN时过滤结果用的,相当于SQL的where语句 HBase中的过滤器创建后会被序列化,然后分发到各个region server中,region server会还原过滤器并使用,这样scan中,不满足条件的结果不会返回客户端 值过滤器: (针对所有列) 创建valueF
阅读全文
HBase笔记5(诊断)
摘要:阻塞急救: RegionServer内存设置太小: 解决方案: 设置Region Server的内存要在conf/hbase-env.sh中添加export HBASE_REGIONSERVER_OPTS=" $HBASE_REGIONSERVER_OPTS -Xms8g -Xmx8g" HFile
阅读全文
HBase笔记4(调优)
摘要:Master/Region Server调优 JVM调优 默认的RegionServer内存是1G,而Memstore默认占40%,即400M,实在是太小了,可以通过HBASE_HEAPSIZE参数修改(CDH界面也可以修改) 1)通用调整,同时调整MASTER Region Server vim
阅读全文
HBase 笔记3
摘要:数据模型 Namespace 表命名空间: 多个表分到一个组进行统一的管理,需要用到表命名空间 表命名空间主要是对表分组,对不同组进行不同环境设定,如配额管理 安全管理 保留表空间: HBase中有2个保留表空间是预先定义 HBase 系统表空间,用于HBase内部表 default: 哪些没有定义
阅读全文
HBase 笔记2
摘要:Hadoop 服务启动顺序: zookeeper -》journalnode-》namenode -> zkfc -> datanode HBase Master WEB控制台: <Master>:60010 如果RegionServer正常启动,但是连接不上Master自己又停止,而Master/
阅读全文
HBase 笔记1
摘要:cap理论: 一致性 可用性 可靠性 任何分布式系统只能最多满足上面2点,无法全部满足 NOSQL = Not Only SQL = 不只是SQL HBase速度并不快,知识当数据量很大时它慢的不明显 HBase缺点: 数据分析是弱项,对于整个NOSQL生态圈,基本都不支持表关联 需求如下时不支持使
阅读全文
Lepus(天兔)监控MySQL部署
摘要:http://www.dbarun.com/docs/lepus/install/lnmp/ 注意:xampp mysqldb-python版本太高会导致lepus白屏 apache版本最好选择2.2 环境: 192.168.139.153 master_mysql 192.168.139.154
阅读全文
ProxySQL(读写分离)部署
摘要:proxySQL是MySQL的中间件产品,是灵活强大的代理层,实现读写分离,支持Query路由功能,支持动态指定某个SQL进行缓存,支持动态加载配置,故障切换和一些SQL 过滤功能 环境: 192.168.139.152 proxy SQL中间件 server-id=1 192.168.139.15
阅读全文