yosql473

[置顶] [大数据面试题]hadoop核心知识点

摘要： * 面试答案为LZ所写，如需转载请注明出处，谢谢。 * 这里不涉及HiveSQL和HBase操作的笔试题，这些东西另有总结。 1.MR意义。 MR是一个用于处理大数据的分布式离线计算框架，它采用”分而治之“的思想。在分布式计算中，将分布式存储、分布式计算、负载均衡等复杂问题高度抽象成map和red 阅读全文

posted @ 2019-04-19 09:02 yosql473 阅读(495) 评论(0) 推荐(0)

[置顶] 从mysql向HBase+Phoenix迁移数据的心得总结

摘要： RDBMS迁移到HBase+Phoenix 阅读全文

posted @ 2018-11-03 14:47 yosql473 阅读(3313) 评论(0) 推荐(0)

2019年5月5日

[数据结构] 2.3 Trie树

摘要：抱歉更新晚了，看了几天三体，2333，我们继续数据结构之旅。一.什么是Tire树？ Tire树有很多名字：字典树、单词查找树。故名思意，它就是一本”字典“，当我们查找"word"单词时，先找到w开头的词汇，再继续往下找到o开头的词汇，依次类推。特点: 1）除去根节点外的所有节点都有一个字符 2 阅读全文

posted @ 2019-05-05 19:51 yosql473 阅读(148) 评论(0) 推荐(0)

2019年4月29日

用Spark完成复杂TopN计算的两种逻辑

摘要：如果有商品品类的数据pairRDD(categoryId,clickCount_orderCount_payCount)，用Spark完成Top5,你会怎么做? 这里假设使用Java语言进行编写，那么你有两种思路： 1.简化成RDD(categoryObject)，其中categoryObject实阅读全文

posted @ 2019-04-29 14:11 yosql473 阅读(372) 评论(0) 推荐(0)

2019年4月28日

[数据结构] P2.3 Trie树

摘要： 1.Trie树的概念 Trie树也叫做`字典树`或者`单词查找树`。用于字符串以及字符串元信息的快速查询。例如: 阅读全文

posted @ 2019-04-28 15:47 yosql473 阅读(119) 评论(0) 推荐(0)

2019年4月25日

[数据结构] 2.7 Heap 堆

摘要： * 注: 本文/本系列谢绝转载，如有转载，本人有权利追究相应责任。 1.堆是什么？（如图所示是一个小堆） 1)堆是一颗完全二叉树，它的最后一层不是满的，其他每一层都是满的，最后一层从左到右也没有空隙。简单的说? 完全二叉树也就是没有缝隙的二叉树。 2)堆常常通过数组实现，因为父子节点直接的关系阅读全文

posted @ 2019-04-25 17:14 yosql473 阅读(408) 评论(0) 推荐(0)

ZooKeeper如何完成分布式锁?

摘要： * 面试答案为LZ所写，如需转载请注明出处，谢谢。 1.最基本的思路: 将<local_ip>:<task_id>存在某个路径节点里。刚开始并没有这个节点，当有executor执行操作时，都会询问这个节点。如果不存在，则创建这个临时节点，并将<local_ip>:<task_id>写进去。如果阅读全文

posted @ 2019-04-25 07:48 yosql473 阅读(185) 评论(0) 推荐(0)

2019年4月24日

[数据结构] 2.2 Huffman树

摘要：注：本文原创，转载请注明出处，本人保留对未注明出处行为的责任追究。 1.Huffman树是什么 Huffman树也称为哈夫曼编码，是一种编码方式，常用于协议的制定，以节省传输空间。 A - F字母，出现的频率分别为: A:5,B: 24, C:7,D:17,E:34,F:5,G:13 对比: 1)使阅读全文

posted @ 2019-04-24 20:01 yosql473 阅读(448) 评论(0) 推荐(0)

hive优化

摘要： * 注：本文原创，转载请注明出处，本人保留对未注明出处行为的责任追究。 Hive的一些优化: 优化方向： 1)表的调整: 外部表: 防止数据被删除分区表: 将数据依据某字段aaa分入不同的目录，使得查找的数据量迅速降低例如: 以month为分区字段，假如每月产生10TB数据，此时就不需要从120 阅读全文

posted @ 2019-04-24 11:14 yosql473 阅读(160) 评论(0) 推荐(0)

[大数据面试题]storm核心知识点

摘要： 1.storm基本架构 storm的主从分别为Nimbus、Supervisor,工作进程为Worker. 2.计算模型 Storm的计算模型分为Spout和Bolt，Spout作为管口、Bolt作为中间节点，数据传输的单元为tuple,每个tuple都有一个值列表，需要注意这个值列表是带name 阅读全文

posted @ 2019-04-24 06:40 yosql473 阅读(2739) 评论(0) 推荐(0)

2019年4月23日

hadoop之数据压缩与数据格式

摘要： * 注：本文原创，转载请注明出处，本人保留对未注明出处行为的责任追究。 a.数据压缩优点: 1.节省本地空间 2.节省带宽缺点: 花时间 1.MR中允许进行数据压缩的地方有三个: 1)input起点 2)map处理之后 3)reduce处理之后进行存储 2.压缩格式常见的压缩计数有bzip2、阅读全文

posted @ 2019-04-23 15:56 yosql473 阅读(917) 评论(0) 推荐(0)

公告