摘要: eg: rowkey设置:0|代表 任何0_xxx都比0|小 (本来0_xxx比0大的,但是0_xxx比0|小)【|是ASCII中第二大值,最大是},但一般不使用}】 hbase在创建表的时候,一开始只有一个Region,当数据量越来越大时,此region不能承受数据量,就会进行split 这种方式 阅读全文
posted @ 2020-06-02 10:24 hulifang 阅读(422) 评论(0) 推荐(0) 编辑
摘要: spark streaming job失败 https://blog.csdn.net/TNT_wang/article/details/105189138 https://www.cnblogs.com/oush/p/11489126.html 正确做法一:为每个RDD分区创建一个连接对象 dst 阅读全文
posted @ 2020-05-28 15:35 hulifang 阅读(431) 评论(0) 推荐(0) 编辑
摘要: mysql索引为什么采用B+树而不用B树 (1)B+树只有叶节点存放数据,其余节点用来索引,而B树是每个索引节点都会有Data域(索引放磁盘中,磁盘IO就会增多) (2) B+树所有的Data域在叶子节点,并且所有叶子节点之间都有一个链指针。这样遍历叶子节点就能获得全部数据,这样就能获得区间访问了。 阅读全文
posted @ 2020-05-25 15:39 hulifang 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 讲的好的链接(https://www.zhihu.com/question/20097631) jvm三个主要的子系统: (1)类加载子系统 (2)运行时数据区(内存结构) (3)执行引擎 运行时数据区(内存结构) java native关键字 简单地讲,一个Native Method就是一个jav 阅读全文
posted @ 2020-05-15 11:07 hulifang 阅读(136) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/weixin_30478757/article/details/95001896 阅读全文
posted @ 2020-05-13 15:13 hulifang 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-05-12 15:33 hulifang 阅读(120) 评论(0) 推荐(0) 编辑
摘要: hadoop(yarn)调度器 (1)FIFO(先进先出调度器) 缺点:需要等待之前的任务执行完毕,才可以执行,如果任务执行时间长,导致其他应用一直等待。 (2)容量调度器 缺点:资源浪费,牺牲了集群的资源利用率,也是任务执行时间拉长。 (3)公平调度器 job1分配100%的资源,当job2出现时 阅读全文
posted @ 2020-05-12 11:22 hulifang 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 线程安全问题解决:https://www.cnblogs.com/zhuobo/p/10641597.html (1)同步代码块 (2)同步方法 (3)同步锁 线程通讯:https://www.cnblogs.com/linyufeng/p/9671844.html 1】休眠唤醒方式 (1)Obje 阅读全文
posted @ 2020-05-11 17:55 hulifang 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 给出2017年11月的新客数(指在11月才有第一笔订单) select count(user_id) from order_tab group by user_id having data_format(min(dt),'yyyy-MM')='2017-11'; 连续几天的活跃用户sql写法 htt 阅读全文
posted @ 2020-05-07 14:15 hulifang 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 1】Receiver是使用高层次的consumer Api来实现的。 receiver 接收的消息都是存储在spark Executor中的,然后spark启动jobq去处理那些消息 然而,默认情况下,这种方式会因为底层的失败丢失数据。 如果要启用高可靠机制,让数据零丢失,就必须启用spark st 阅读全文
posted @ 2020-04-20 11:27 hulifang 阅读(528) 评论(0) 推荐(0) 编辑