上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 70 下一页

2018年7月10日

RAFT算法

摘要: 接触到RAFT是在学习KUDU的时候,KUDU的官方文档中一个连接指向了RAFT;只是觉得这个算法一定有其特点,要知道KUDU可以是一帮HBASE的大神写的。原始开始了解。 RAFT是一致性算法,说到一致性算法很多都会想到zookeeper,是的,这是我们接触比较多的内部包含一致性算法的应用产品了。zookeeper是基于Paxos。RAFT的假想敌无疑就是Paxos,因为RAFT的论文中全文... 阅读全文

posted @ 2018-07-10 13:15 下士闻道 阅读(722) 评论(0) 推荐(0) 编辑

maven工程下的“run as application”

摘要: 为了让maven能够在Terminal窗口执行(比在Console执行方便多了,命令行总是比右键选择run要快),需要配置如下的profile;然后敲入 mvn -test -Prun 即可。 采用这种注意工程间的依赖需要都install才能够正常跑,因为他用的jar都是从mvn仓库中取值;而不再是 阅读全文

posted @ 2018-07-10 12:59 下士闻道 阅读(415) 评论(0) 推荐(0) 编辑

2018年7月9日

Spark机器配置计算

摘要: ● Based on the recommendations mentioned above, Let's assign 5 core per executors => --executor-cores = 5 (for good HDFS throughput) ● Leave 1 core pe 阅读全文

posted @ 2018-07-09 23:37 下士闻道 阅读(476) 评论(0) 推荐(0) 编辑

2018年7月8日

数学思路

摘要: 数学的基本思路就是描绘一个范围,然后告诉你我只是关注这个范围里面的一部分。算法其实也是如此。 阅读全文

posted @ 2018-07-08 16:08 下士闻道 阅读(172) 评论(0) 推荐(0) 编辑

关联和依赖

摘要: 依赖是临时关系,生命周期仅限于一个函数; 关联(association)则是长久关系,一般为对象的属性,其生命周期和对象本身是一致的; 聚合(aggregation)本身也是关联,但是其语义上是has-a的关系,同时保持独立;就像大楼和砖头的这种关系;大楼倒了,砖头其实还是可以存在的;再比如Cust 阅读全文

posted @ 2018-07-08 16:02 下士闻道 阅读(197) 评论(0) 推荐(0) 编辑

2018年7月7日

spark数据倾斜

摘要: 数据倾斜的主要问题在于,某个分区数量很巨大,在做map运算的时候,将会发生别的分区task很快计算完成,但是某几个分区task的计算成为了系统的瓶颈,明显超过其他分区时间; 1.方案:Kafka的随机主题 如果kafka的topic和分区关联,而且kafka是专用的,那么其实kafka如果能够和随机 阅读全文

posted @ 2018-07-07 23:06 下士闻道 阅读(496) 评论(0) 推荐(0) 编辑

MapReduce – 基本思路之推荐引擎

摘要: 理解MapReduce关键两个步骤; 首先是构想出结构的数据结构,这种数据结构可以支撑你的业务分析使用;是要理解这种模式的处理元素。 第二步,分析原始数据的结构是怎样的; 第三步,基于原始数据结构以及目标数据结构,在分析map的实现逻辑,返回值什么,sort-shuffle之后的值什么,这个值也是r 阅读全文

posted @ 2018-07-07 22:59 下士闻道 阅读(247) 评论(0) 推荐(0) 编辑

数据库的聚簇索引和非聚簇索引

摘要: 华为面试提到了数据库(索引)的数据结构,当时懵逼了,于是调查一下。 首先要讲一下索引的概念;所以其实是独立于数据而存储的;因为索引的用途是查询,所以存储的数据结构是B树(面试之后,我和面试官沟通了一下,数据库存储的数据结构是什么,结果被鄙视了);索引/ 数据的存储一般是以页为单位的; 那么为甚采用B树,而不是平衡二叉树之类的二叉树?因为B树可以有多个孩子,可以控制深度;二叉树则是一个节点只能有... 阅读全文

posted @ 2018-07-07 22:55 下士闻道 阅读(485) 评论(0) 推荐(0) 编辑

2018年7月6日

什么是Map-Reduce

摘要: Map-Reduce本身并不是算法;而是一种处理模式;因为在大数据分布式这种场景下,处理数据运算和单机版不同;需要协同多台机器,并行计算;于是有了map-reduce这种模式,map阶段是数据处理,在各个机器上面进行并行计算,可以算作是对于数据的一个过滤+计算过程,对于需要计算的数据进行收集(map 阅读全文

posted @ 2018-07-06 21:39 下士闻道 阅读(547) 评论(0) 推荐(0) 编辑

MapReduce-朴素贝叶斯

摘要: 朴素贝叶斯(Native Bayes),贝叶斯在现实使用中是怎么玩的?不是根据A|B的概率获得B|A的概率,在现实中的玩法是: 首先要明白贝叶斯是一种分类算法,因为是概率所以,他的应用领域其实是比较,那个分类的概率大就是哪个分类。 常场景是属性和结论,比如天气,风向,温度这些维度属性来推断是否适合打 阅读全文

posted @ 2018-07-06 13:25 下士闻道 阅读(469) 评论(0) 推荐(0) 编辑

上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 70 下一页

导航