11 2019 档案
摘要:在Kafka0.11版本后,在保证精确一次性基础上通过事务来保证生产和消费可以跨分区与会话, 实现的原理是添加一个TID来与produceID来绑定,这样produce向broker注册时会记录TID,这样 如果挂掉了重启后PID随机生成但是Tid没变,可以通过Tid来将新的PID覆盖掉获取状态信息
阅读全文
摘要:Kafka通过zookeeper来指定一台Kafka broker为controller Kafka集群的所有topic的partition主从选举通过controller来完成。
阅读全文
摘要:1、采用追加数据到log中,为防止log过大采用分片和索引来加快查找并减小文件大小。 2、采用页面缓存 3、零拷贝,上层不用复制转发,直接从下层页缓存读取数据。
阅读全文
摘要:导出:从hdfs到MySQL 添加sqoop参数: --input-null-string '\\N' \ --input-null-non-string '\\N' \这样导出时识别\N为空导入:从MySQL到hdfs导入数据时采用--null-string '\\N'和--null-non-st
阅读全文
摘要:1、 Redis简介redis是Nosql数据库中使用较为广泛的非关系型内存数据库,redis内部是一个key-value存储系统。它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash(哈希类型,类似
阅读全文
摘要:bypass运行机制 下图说明了bypass SortShuffleManager的原理。bypass运行机制的触发条件如下: shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。 不是聚合类的shuffle算子(比如red
阅读全文
摘要:组件端口及说明 CDH 7180: Cloudera Manager WebUI端口7182: Cloudera Manager Server 与 Agent 通讯端口 Hadoop 50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS R
阅读全文
摘要:TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;并且SEQUENCEFILE是存储为二进制文件 ORC和PARQUET是基于列式存储的。 ORC是列式存储,RC是行式存储 目录 概述 hive文件存储格式包括以下几类 一、TEXTFILE 二、SEQUENCEFILE 三、RC
阅读全文
摘要:等于切片个数,默认128M一片,无限制,一片一个map()
阅读全文
摘要:公平调度器:多队列,同一时间队列中多任务按照缺额执行,队列并行度大于队列个数 容量调度器:多队列,同一时间队列中只有一个任务执行,队列中按照先进先出分配任务,队列并行度等于队列个数。 Hadoop2.7.2默认容量调度器
阅读全文
摘要:内存泄漏达到一定程度会引发OOM。 内存泄漏是指编写的代码中含有bug,不是指会引发程序执行结果错误那种,而是不可达的对象停留在堆中,即代码中含有对象的强引用没有没释放掉,导致该无用的对象无法被垃圾收集器收集。 假设内存足够大,而内存泄漏的情况并不严重,只要还有足够的空间分配给新的对象,那样即使内存
阅读全文
摘要:c3p0连接池:开源 druid连接池:性能好,对MySQL做了优化,阿里出品,淘宝和支付宝专用数据库连接池,但它不仅仅是一个数据库连接池,它还包含一个ProxyDriver,一系列内置的JDBC组件库,一个SQL Parser。支持所有JDBC兼容的数据库,包括Oracle、MySql、Derby
阅读全文
摘要:一个application有多个job(一个行动算子触发一个job);每个job在发生shuffle(比如:reduceByKey)时,就会被拆成一个stage;每个stage被拆为多个task,task被分配到executor上执行,一个task会有一个线程去执行,一个task处理一小片数据。 r
阅读全文
摘要:phoenix二级索引分两种: 1、全局索引:全局索引知道所有的位置,索引查快,但是并不是和所有数据在一块所以写的话需要网络传输。所以适合多读少写。 2、本地索引:与数据在同一个region中,写快因为在本地不需要网络传输。但是知道的少所以适合多写少读。
阅读全文
摘要:select count(name) from a group by name 结果为分组后相同name的个数,不是1
阅读全文
摘要:在hive查询中我们发现hive的查询输出不显示列名,怎么解决呢? 解决办法:进入hive cli后: set hive.cli.print.header=true; hive> select * from ratings limit 5; OK ratings.userid ratings.mov
阅读全文
摘要:查看当前目录下各个文件及目录占用空间大小 du -sh *
阅读全文
摘要:apache hdfs端口号:9000 CDH hdfs端口号:8020
阅读全文
摘要:本文链接:https://blog.csdn.net/zhikanjiani/article/details/100920775 第一章:Dbeaver连接MySQL 1、关于下载安装以及Dbeaver连接MySQL、请看楼主的这篇博客: MySQL实操(一) https://blog.csdn.n
阅读全文
摘要:容量调度器是并行执行的 公平调度器是并发执行的 并行是一段时间内同时执行,具体到时刻只有一个执行,即多个线程同一时刻只有一个执行 并发是同一时刻同时发生执行,即多个线程同一时刻执行
阅读全文
只有注册用户登录后才能阅读该文。
只有注册用户登录后才能阅读该文。
摘要:1 val properties = new Properties() 2 properties.setProperty("bootstrap.servers", "localhost:9092") 3 properties.setProperty("group.id", "consumer-gro
阅读全文
摘要:同样是后端开发,年薪50万和年薪20万的差距在哪里>>> 数据库事务的隔离级别有4个,由低到高依次为Read uncommitted、Read committed、Repeatable read、Serializable,这四个级别可以逐个解决脏读、不可重复读、幻读这几类问题。 √: 可能出现 ×:
阅读全文
摘要:at-most-once(可能少读) ack=0 发送不管接收成功与否 at-least-once(可能重复读)ack=-1 主从分区都接收成功事务才成功 exactly-once (正好)= at-least-once+幂等性 ack=1 主分区接收成功事务就成功
阅读全文
摘要:1、将group by字段加hash随机字符串,再分组,这样聚合一部分相同的,再将结果group by (去掉hash字符串的字段)这时数据量就小了。 2、两个不同字段分组,再将一个字段分组,这样两次聚合,分担了后数据量就不大了
阅读全文

浙公网安备 33010602011771号