会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
yosql473
博客园
首页
新随笔
联系
管理
订阅
[置顶]
[大数据面试题]hadoop核心知识点
摘要: * 面试答案为LZ所写,如需转载请注明出处,谢谢。 * 这里不涉及HiveSQL和HBase操作的笔试题,这些东西另有总结。 1.MR意义。 MR是一个用于处理大数据的分布式离线计算框架,它采用”分而治之“的思想。 在分布式计算中,将分布式存储、分布式计算、负载均衡等复杂问题高度抽象成map和red
阅读全文
posted @ 2019-04-19 09:02 yosql473
阅读(476)
评论(0)
推荐(0)
[置顶]
从mysql向HBase+Phoenix迁移数据的心得总结
摘要: RDBMS迁移到HBase+Phoenix
阅读全文
posted @ 2018-11-03 14:47 yosql473
阅读(3266)
评论(0)
推荐(0)
2019年5月5日
[数据结构] 2.3 Trie树
摘要: 抱歉更新晚了,看了几天三体,2333,我们继续数据结构之旅。 一.什么是Tire树? Tire树有很多名字:字典树、单词查找树。 故名思意,它就是一本”字典“,当我们查找"word"单词时,先找到w开头的词汇,再继续往下找到o开头的词汇,依次类推。 特点: 1)除去根节点外的所有节点都有一个字符 2
阅读全文
posted @ 2019-05-05 19:51 yosql473
阅读(135)
评论(0)
推荐(0)
2019年4月29日
用Spark完成复杂TopN计算的两种逻辑
摘要: 如果有商品品类的数据pairRDD(categoryId,clickCount_orderCount_payCount),用Spark完成Top5,你会怎么做? 这里假设使用Java语言进行编写,那么你有两种思路: 1.简化成RDD(categoryObject),其中categoryObject实
阅读全文
posted @ 2019-04-29 14:11 yosql473
阅读(357)
评论(0)
推荐(0)
2019年4月28日
[数据结构] P2.3 Trie树
摘要: 1.Trie树的概念 Trie树也叫做`字典树`或者`单词查找树`。用于字符串以及字符串元信息的快速查询。 例如:
阅读全文
posted @ 2019-04-28 15:47 yosql473
阅读(113)
评论(0)
推荐(0)
2019年4月25日
[数据结构] 2.7 Heap 堆
摘要: * 注: 本文/本系列谢绝转载,如有转载,本人有权利追究相应责任。 1.堆是什么? (如图所示是一个小堆) 1)堆是一颗完全二叉树,它的最后一层不是满的,其他每一层都是满的,最后一层从左到右也没有空隙。 简单的说? 完全二叉树也就是没有缝隙的二叉树。 2)堆常常通过数组实现,因为 父子节点直接的关系
阅读全文
posted @ 2019-04-25 17:14 yosql473
阅读(397)
评论(0)
推荐(0)
ZooKeeper如何完成分布式锁?
摘要: * 面试答案为LZ所写,如需转载请注明出处,谢谢。 1.最基本的思路: 将<local_ip>:<task_id>存在某个路径节点里。 刚开始并没有这个节点,当有executor执行操作时,都会询问这个节点。 如果不存在,则创建这个临时节点,并将<local_ip>:<task_id>写进去。 如果
阅读全文
posted @ 2019-04-25 07:48 yosql473
阅读(175)
评论(0)
推荐(0)
2019年4月24日
[数据结构] 2.2 Huffman树
摘要: 注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究。 1.Huffman树是什么 Huffman树也称为哈夫曼编码,是一种编码方式,常用于协议的制定,以节省传输空间。 A - F字母,出现的频率分别为: A:5,B: 24, C:7,D:17,E:34,F:5,G:13 对比: 1)使
阅读全文
posted @ 2019-04-24 20:01 yosql473
阅读(426)
评论(0)
推荐(0)
hive优化
摘要: * 注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究。 Hive的一些优化: 优化方向: 1)表的调整: 外部表: 防止数据被删除 分区表: 将数据依据某字段aaa分入不同的目录,使得查找的数据量迅速降低 例如: 以month为分区字段,假如每月产生10TB数据,此时就不需要从120
阅读全文
posted @ 2019-04-24 11:14 yosql473
阅读(152)
评论(0)
推荐(0)
[大数据面试题]storm核心知识点
摘要: 1.storm基本架构 storm的主从分别为Nimbus、Supervisor,工作进程为Worker. 2.计算模型 Storm的计算模型分为Spout和Bolt,Spout作为管口、Bolt作为中间节点,数据传输的单元为tuple,每个tuple都有一个值列表, 需要注意这个值列表是带name
阅读全文
posted @ 2019-04-24 06:40 yosql473
阅读(2717)
评论(0)
推荐(0)
2019年4月23日
hadoop之数据压缩与数据格式
摘要: * 注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究。 a.数据压缩 优点: 1.节省本地空间 2.节省带宽 缺点: 花时间 1.MR中允许进行数据压缩的地方有三个: 1)input起点 2)map处理之后 3)reduce处理之后进行存储 2.压缩格式 常见的压缩计数有bzip2、
阅读全文
posted @ 2019-04-23 15:56 yosql473
阅读(894)
评论(0)
推荐(0)
下一页
公告