摘要: * 面试答案为LZ所写,如需转载请注明出处,谢谢。 * 这里不涉及HiveSQL和HBase操作的笔试题,这些东西另有总结。 1.MR意义。 MR是一个用于处理大数据的分布式离线计算框架,它采用”分而治之“的思想。 在分布式计算中,将分布式存储、分布式计算、负载均衡等复杂问题高度抽象成map和red 阅读全文
posted @ 2019-04-19 09:02 yosql473 阅读(453) 评论(0) 推荐(0) 编辑
摘要: RDBMS迁移到HBase+Phoenix 阅读全文
posted @ 2018-11-03 14:47 yosql473 阅读(3224) 评论(0) 推荐(0) 编辑
摘要: 抱歉更新晚了,看了几天三体,2333,我们继续数据结构之旅。 一.什么是Tire树? Tire树有很多名字:字典树、单词查找树。 故名思意,它就是一本”字典“,当我们查找"word"单词时,先找到w开头的词汇,再继续往下找到o开头的词汇,依次类推。 特点: 1)除去根节点外的所有节点都有一个字符 2 阅读全文
posted @ 2019-05-05 19:51 yosql473 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 如果有商品品类的数据pairRDD(categoryId,clickCount_orderCount_payCount),用Spark完成Top5,你会怎么做? 这里假设使用Java语言进行编写,那么你有两种思路: 1.简化成RDD(categoryObject),其中categoryObject实 阅读全文
posted @ 2019-04-29 14:11 yosql473 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 1.Trie树的概念 Trie树也叫做`字典树`或者`单词查找树`。用于字符串以及字符串元信息的快速查询。 例如: 阅读全文
posted @ 2019-04-28 15:47 yosql473 阅读(109) 评论(0) 推荐(0) 编辑
摘要: * 注: 本文/本系列谢绝转载,如有转载,本人有权利追究相应责任。 1.堆是什么? (如图所示是一个小堆) 1)堆是一颗完全二叉树,它的最后一层不是满的,其他每一层都是满的,最后一层从左到右也没有空隙。 简单的说? 完全二叉树也就是没有缝隙的二叉树。 2)堆常常通过数组实现,因为 父子节点直接的关系 阅读全文
posted @ 2019-04-25 17:14 yosql473 阅读(384) 评论(0) 推荐(0) 编辑
摘要: * 面试答案为LZ所写,如需转载请注明出处,谢谢。 1.最基本的思路: 将<local_ip>:<task_id>存在某个路径节点里。 刚开始并没有这个节点,当有executor执行操作时,都会询问这个节点。 如果不存在,则创建这个临时节点,并将<local_ip>:<task_id>写进去。 如果 阅读全文
posted @ 2019-04-25 07:48 yosql473 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究。 1.Huffman树是什么 Huffman树也称为哈夫曼编码,是一种编码方式,常用于协议的制定,以节省传输空间。 A - F字母,出现的频率分别为: A:5,B: 24, C:7,D:17,E:34,F:5,G:13 对比: 1)使 阅读全文
posted @ 2019-04-24 20:01 yosql473 阅读(378) 评论(0) 推荐(0) 编辑
摘要: * 注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究。 Hive的一些优化: 优化方向: 1)表的调整: 外部表: 防止数据被删除 分区表: 将数据依据某字段aaa分入不同的目录,使得查找的数据量迅速降低 例如: 以month为分区字段,假如每月产生10TB数据,此时就不需要从120 阅读全文
posted @ 2019-04-24 11:14 yosql473 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 1.storm基本架构 storm的主从分别为Nimbus、Supervisor,工作进程为Worker. 2.计算模型 Storm的计算模型分为Spout和Bolt,Spout作为管口、Bolt作为中间节点,数据传输的单元为tuple,每个tuple都有一个值列表, 需要注意这个值列表是带name 阅读全文
posted @ 2019-04-24 06:40 yosql473 阅读(2684) 评论(0) 推荐(0) 编辑
摘要: * 注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究。 a.数据压缩 优点: 1.节省本地空间 2.节省带宽 缺点: 花时间 1.MR中允许进行数据压缩的地方有三个: 1)input起点 2)map处理之后 3)reduce处理之后进行存储 2.压缩格式 常见的压缩计数有bzip2、 阅读全文
posted @ 2019-04-23 15:56 yosql473 阅读(855) 评论(0) 推荐(0) 编辑