随笔档案「2019年11月」 - 啊啊啊啊鹏

Kafka如何保证读写的跨分区与会话

摘要：在Kafka0.11版本后，在保证精确一次性基础上通过事务来保证生产和消费可以跨分区与会话，实现的原理是添加一个TID来与produceID来绑定，这样produce向broker注册时会记录TID，这样如果挂掉了重启后PID随机生成但是Tid没变，可以通过Tid来将新的PID覆盖掉获取状态信息阅读全文

posted @ 2019-11-30 14:54 啊啊啊啊鹏阅读(353) 评论(0) 推荐(0)

Kafka topic中的partition的leader选举

摘要：Kafka通过zookeeper来指定一台Kafka broker为controller Kafka集群的所有topic的partition主从选举通过controller来完成。阅读全文

posted @ 2019-11-30 14:36 啊啊啊啊鹏阅读(2627) 评论(2) 推荐(0)

Kafka为什么这么快

摘要：1、采用追加数据到log中，为防止log过大采用分片和索引来加快查找并减小文件大小。 2、采用页面缓存 3、零拷贝，上层不用复制转发，直接从下层页缓存读取数据。阅读全文

posted @ 2019-11-30 14:27 啊啊啊啊鹏阅读(205) 评论(0) 推荐(0)

sqoop导入导出

摘要：导出：从hdfs到MySQL 添加sqoop参数： --input-null-string '\\N' \ --input-null-non-string '\\N' \这样导出时识别\N为空导入：从MySQL到hdfs导入数据时采用--null-string '\\N'和--null-non-st 阅读全文

posted @ 2019-11-26 10:54 啊啊啊啊鹏阅读(176) 评论(0) 推荐(0)

为什么要用redis去重

摘要：1、 Redis简介redis是Nosql数据库中使用较为广泛的非关系型内存数据库，redis内部是一个key-value存储系统。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash（哈希类型，类似阅读全文

posted @ 2019-11-23 13:52 啊啊啊啊鹏阅读(2408) 评论(0) 推荐(0)

bypass SortShuffleManager的bypass运行机制

摘要：bypass运行机制下图说明了bypass SortShuffleManager的原理。bypass运行机制的触发条件如下： shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。不是聚合类的shuffle算子（比如red 阅读全文

posted @ 2019-11-23 09:43 啊啊啊啊鹏阅读(1605) 评论(0) 推荐(0)

大数据常用端口号

摘要：组件端口及说明 CDH 7180： Cloudera Manager WebUI端口7182： Cloudera Manager Server 与 Agent 通讯端口 Hadoop 50070：HDFS WEB UI端口8020 ：高可用的HDFS RPC端口9000 ：非高可用的HDFS R 阅读全文

posted @ 2019-11-22 20:10 啊啊啊啊鹏阅读(1068) 评论(0) 推荐(0)

CDH端口号

摘要：阅读全文

posted @ 2019-11-22 20:03 啊啊啊啊鹏阅读(831) 评论(0) 推荐(0)

hive中parquet和SEQUENCEFILE区别

摘要：TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的；并且SEQUENCEFILE是存储为二进制文件 ORC和PARQUET是基于列式存储的。 ORC是列式存储，RC是行式存储目录概述 hive文件存储格式包括以下几类一、TEXTFILE 二、SEQUENCEFILE 三、RC 阅读全文

posted @ 2019-11-22 17:35 啊啊啊啊鹏阅读(5857) 评论(1) 推荐(0)

关于Hadoop读文件的并行度

摘要：等于切片个数，默认128M一片，无限制，一片一个map() 阅读全文

posted @ 2019-11-22 09:32 啊啊啊啊鹏阅读(309) 评论(0) 推荐(0)

hadoop公平调度器与容量调度器区别

摘要：公平调度器：多队列，同一时间队列中多任务按照缺额执行，队列并行度大于队列个数容量调度器：多队列，同一时间队列中只有一个任务执行，队列中按照先进先出分配任务，队列并行度等于队列个数。 Hadoop2.7.2默认容量调度器阅读全文

posted @ 2019-11-22 09:31 啊啊啊啊鹏阅读(1801) 评论(0) 推荐(0)

关于内存泄露与OOM的关系

摘要：内存泄漏达到一定程度会引发OOM。内存泄漏是指编写的代码中含有bug，不是指会引发程序执行结果错误那种，而是不可达的对象停留在堆中，即代码中含有对象的强引用没有没释放掉，导致该无用的对象无法被垃圾收集器收集。假设内存足够大，而内存泄漏的情况并不严重，只要还有足够的空间分配给新的对象，那样即使内存阅读全文

posted @ 2019-11-21 21:06 啊啊啊啊鹏阅读(1547) 评论(0) 推荐(0)

关于druid连接池与c3p0连接池区别

摘要：c3p0连接池：开源 druid连接池：性能好，对MySQL做了优化，阿里出品，淘宝和支付宝专用数据库连接池，但它不仅仅是一个数据库连接池，它还包含一个ProxyDriver，一系列内置的JDBC组件库，一个SQL Parser。支持所有JDBC兼容的数据库，包括Oracle、MySql、Derby 阅读全文

posted @ 2019-11-21 21:00 啊啊啊啊鹏阅读(2143) 评论(0) 推荐(0)

sc.textfile 读hdfs130M文件为什么是2个分区的问题？

摘要：一个application有多个job（一个行动算子触发一个job）；每个job在发生shuffle（比如：reduceByKey）时，就会被拆成一个stage；每个stage被拆为多个task，task被分配到executor上执行，一个task会有一个线程去执行，一个task处理一小片数据。 r 阅读全文

posted @ 2019-11-21 20:40 啊啊啊啊鹏阅读(425) 评论(0) 推荐(0)

关于phoenix多读少写与多写少读的二级索引问题与spark累加器只写、广播变量只读区分

摘要：phoenix二级索引分两种： 1、全局索引：全局索引知道所有的位置，索引查快，但是并不是和所有数据在一块所以写的话需要网络传输。所以适合多读少写。 2、本地索引：与数据在同一个region中，写快因为在本地不需要网络传输。但是知道的少所以适合多写少读。阅读全文

posted @ 2019-11-21 19:45 啊啊啊啊鹏阅读(199) 评论(0) 推荐(0)

RDD累加器与广播变量？

该文被密码保护。

posted @ 2019-11-21 19:28 啊啊啊啊鹏阅读(1) 评论(0) 推荐(0)

设置spark读取速率：每秒处理1000条数据

该文被密码保护。

posted @ 2019-11-21 11:28 啊啊啊啊鹏阅读(0) 评论(0) 推荐(0)

kafka通过API读取对应topic数据

该文被密码保护。

posted @ 2019-11-21 10:12 啊啊啊啊鹏阅读(1) 评论(0) 推荐(0)

spark大表join大表 SMB JOIN方式优化

该文被密码保护。

posted @ 2019-11-19 16:18 啊啊啊啊鹏阅读(3) 评论(0) 推荐(0)

关于spark大表join大表的优化一网上方法加随机前缀

该文被密码保护。

posted @ 2019-11-19 15:49 啊啊啊啊鹏阅读(1) 评论(0) 推荐(0)

关于spark小表join大表的优化

该文被密码保护。

posted @ 2019-11-19 15:36 啊啊啊啊鹏阅读(2) 评论(0) 推荐(0)

DataFrameAPI实现查询 sql方法调不出来

该文被密码保护。

posted @ 2019-11-18 21:20 啊啊啊啊鹏阅读(1) 评论(0) 推荐(0)

关于count（分组字段）的问题

摘要：select count(name) from a group by name 结果为分组后相同name的个数，不是1 阅读全文

posted @ 2019-11-18 16:17 啊啊啊啊鹏阅读(559) 评论(0) 推荐(0)

hive命令行显示字段名配置

摘要：在hive查询中我们发现hive的查询输出不显示列名，怎么解决呢？解决办法：进入hive cli后： set hive.cli.print.header=true; hive> select * from ratings limit 5; OK ratings.userid ratings.mov 阅读全文

posted @ 2019-11-18 10:19 啊啊啊啊鹏阅读(1338) 评论(0) 推荐(0)

Linux 查看当前目录下的文件大小

摘要：查看当前目录下各个文件及目录占用空间大小 du -sh * 阅读全文

posted @ 2019-11-17 13:46 啊啊啊啊鹏阅读(4334) 评论(0) 推荐(0)

apache 端口号与 CDH端口号对比

摘要：apache hdfs端口号：9000 CDH hdfs端口号：8020 阅读全文

posted @ 2019-11-15 09:40 啊啊啊啊鹏阅读(432) 评论(0) 推荐(0)

dbeaver驱动问题解决方案

摘要：本文链接：https://blog.csdn.net/zhikanjiani/article/details/100920775 第一章：Dbeaver连接MySQL 1、关于下载安装以及Dbeaver连接MySQL、请看楼主的这篇博客： MySQL实操（一） https://blog.csdn.n 阅读全文

posted @ 2019-11-14 17:22 啊啊啊啊鹏阅读(33482) 评论(0) 推荐(0)

容量调度器与公平调度器区别

摘要：容量调度器是并行执行的公平调度器是并发执行的并行是一段时间内同时执行，具体到时刻只有一个执行，即多个线程同一时刻只有一个执行并发是同一时刻同时发生执行，即多个线程同一时刻执行阅读全文

posted @ 2019-11-13 11:32 啊啊啊啊鹏阅读(1882) 评论(0) 推荐(0)

RAID

摘要：阅读全文

posted @ 2019-11-11 22:40 啊啊啊啊鹏阅读(226) 评论(0) 推荐(0)

升序的时间产生水印

只有注册用户登录后才能阅读该文。

posted @ 2019-11-11 12:11 啊啊啊啊鹏阅读(0) 评论(0) 推荐(0)

窗口全量聚合算子apply和process有什么区别么？？分别什么时候用？

只有注册用户登录后才能阅读该文。

posted @ 2019-11-09 22:06 啊啊啊啊鹏阅读(1) 评论(0) 推荐(0)

kafka ack

只有注册用户登录后才能阅读该文。

posted @ 2019-11-06 19:38 啊啊啊啊鹏阅读(3) 评论(0) 推荐(0)

flink的事务型写入

只有注册用户登录后才能阅读该文。

posted @ 2019-11-06 16:36 啊啊啊啊鹏阅读(2) 评论(0) 推荐(0)

es 如何保证一致性？

只有注册用户登录后才能阅读该文。

posted @ 2019-11-06 15:47 啊啊啊啊鹏阅读(4) 评论(0) 推荐(0)

Spark的cache（持久化），和checkpoint与flink的保证数据一致性的检查点有什么不同么？

只有注册用户登录后才能阅读该文。

posted @ 2019-11-06 12:08 啊啊啊啊鹏阅读(5) 评论(0) 推荐(0)

flink的window与windowAll

只有注册用户登录后才能阅读该文。

posted @ 2019-11-05 20:55 啊啊啊啊鹏阅读(2) 评论(0) 推荐(0)

flink的keyBy()聚合算子

只有注册用户登录后才能阅读该文。

posted @ 2019-11-04 22:13 啊啊啊啊鹏阅读(3) 评论(0) 推荐(0)

flink的Kafka数据源代码样例

摘要：1 val properties = new Properties() 2 properties.setProperty("bootstrap.servers", "localhost:9092") 3 properties.setProperty("group.id", "consumer-gro 阅读全文

posted @ 2019-11-04 20:21 啊啊啊啊鹏阅读(523) 评论(0) 推荐(0)

flink中水位线，窗口，事件时间关系

只有注册用户登录后才能阅读该文。

posted @ 2019-11-04 19:07 啊啊啊啊鹏阅读(7) 评论(0) 推荐(0)

数据库隔离级别，读已提交，读未提交

摘要：同样是后端开发，年薪50万和年薪20万的差距在哪里>>> 数据库事务的隔离级别有4个，由低到高依次为Read uncommitted、Read committed、Repeatable read、Serializable，这四个级别可以逐个解决脏读、不可重复读、幻读这几类问题。 √: 可能出现 ×: 阅读全文

posted @ 2019-11-04 12:41 啊啊啊啊鹏阅读(2714) 评论(0) 推荐(0)

关于Kafka的ack问题

摘要：at-most-once（可能少读） ack=0 发送不管接收成功与否 at-least-once（可能重复读）ack=-1 主从分区都接收成功事务才成功 exactly-once （正好）= at-least-once+幂等性 ack=1 主分区接收成功事务就成功阅读全文

posted @ 2019-11-04 11:23 啊啊啊啊鹏阅读(1554) 评论(0) 推荐(0)

阿里实时建表聚合时的数据倾斜常用方法解决

摘要：1、将group by字段加hash随机字符串，再分组，这样聚合一部分相同的，再将结果group by （去掉hash字符串的字段）这时数据量就小了。 2、两个不同字段分组，再将一个字段分组，这样两次聚合，分担了后数据量就不大了阅读全文

posted @ 2019-11-01 11:31 啊啊啊啊鹏阅读(241) 评论(0) 推荐(0)

数据指南

11 2019 档案

公告