张叫兽的技术研究院

机器学习之画图

摘要：关于画图在现实数字的时候代码如下：注意reshape参数里面是长和宽，一定要保证长*宽的值是784；否则就会和数据本身不符，运行报错；（28,28）可过，（1, 784）亦可以通过。 imshow是设置图片的展示，cmap意思是color map，颜色方案，binary代表是白底黑字；关于图谱阅读全文

posted @ 2018-07-17 21:45 张叫兽的技术研究院阅读(1111) 评论(0) 推荐(0) 编辑

摘要：接触到RAFT是在学习KUDU的时候，KUDU的官方文档中一个连接指向了RAFT；只是觉得这个算法一定有其特点，要知道KUDU可以是一帮HBASE的大神写的。原始开始了解。 RAFT是一致性算法，说到一致性算法很多都会想到zookeeper，是的，这是我们接触比较多的内部包含一致性算法的应用产品了。zookeeper是基于Paxos。RAFT的假想敌无疑就是Paxos，因为RAFT的论文中全文... 阅读全文

posted @ 2018-07-10 13:15 张叫兽的技术研究院阅读(723) 评论(0) 推荐(0) 编辑

maven工程下的“run as application”

摘要：为了让maven能够在Terminal窗口执行（比在Console执行方便多了，命令行总是比右键选择run要快），需要配置如下的profile；然后敲入 mvn -test -Prun 即可。采用这种注意工程间的依赖需要都install才能够正常跑，因为他用的jar都是从mvn仓库中取值；而不再是阅读全文

posted @ 2018-07-10 12:59 张叫兽的技术研究院阅读(417) 评论(0) 推荐(0) 编辑

Spark机器配置计算

摘要： ● Based on the recommendations mentioned above, Let's assign 5 core per executors => --executor-cores = 5 (for good HDFS throughput) ● Leave 1 core pe 阅读全文

posted @ 2018-07-09 23:37 张叫兽的技术研究院阅读(478) 评论(0) 推荐(0) 编辑

数学思路

摘要：数学的基本思路就是描绘一个范围，然后告诉你我只是关注这个范围里面的一部分。算法其实也是如此。阅读全文

posted @ 2018-07-08 16:08 张叫兽的技术研究院阅读(175) 评论(0) 推荐(0) 编辑

关联和依赖

摘要：依赖是临时关系，生命周期仅限于一个函数；关联（association）则是长久关系，一般为对象的属性，其生命周期和对象本身是一致的；聚合（aggregation）本身也是关联，但是其语义上是has-a的关系，同时保持独立；就像大楼和砖头的这种关系；大楼倒了，砖头其实还是可以存在的；再比如Cust 阅读全文

posted @ 2018-07-08 16:02 张叫兽的技术研究院阅读(199) 评论(0) 推荐(0) 编辑

spark数据倾斜

摘要：数据倾斜的主要问题在于，某个分区数量很巨大，在做map运算的时候，将会发生别的分区task很快计算完成，但是某几个分区task的计算成为了系统的瓶颈，明显超过其他分区时间； 1.方案：Kafka的随机主题如果kafka的topic和分区关联，而且kafka是专用的，那么其实kafka如果能够和随机阅读全文

posted @ 2018-07-07 23:06 张叫兽的技术研究院阅读(500) 评论(0) 推荐(0) 编辑

MapReduce – 基本思路之推荐引擎

摘要：理解MapReduce关键两个步骤；首先是构想出结构的数据结构，这种数据结构可以支撑你的业务分析使用；是要理解这种模式的处理元素。第二步，分析原始数据的结构是怎样的；第三步，基于原始数据结构以及目标数据结构，在分析map的实现逻辑，返回值什么，sort-shuffle之后的值什么，这个值也是r 阅读全文

posted @ 2018-07-07 22:59 张叫兽的技术研究院阅读(247) 评论(0) 推荐(0) 编辑

数据库的聚簇索引和非聚簇索引

摘要：华为面试提到了数据库（索引）的数据结构，当时懵逼了，于是调查一下。首先要讲一下索引的概念；所以其实是独立于数据而存储的；因为索引的用途是查询，所以存储的数据结构是B树（面试之后，我和面试官沟通了一下，数据库存储的数据结构是什么，结果被鄙视了）；索引/ 数据的存储一般是以页为单位的；那么为甚采用B树，而不是平衡二叉树之类的二叉树？因为B树可以有多个孩子，可以控制深度；二叉树则是一个节点只能有... 阅读全文

posted @ 2018-07-07 22:55 张叫兽的技术研究院阅读(489) 评论(0) 推荐(0) 编辑

什么是Map-Reduce

摘要： Map-Reduce本身并不是算法；而是一种处理模式；因为在大数据分布式这种场景下，处理数据运算和单机版不同；需要协同多台机器，并行计算；于是有了map-reduce这种模式，map阶段是数据处理，在各个机器上面进行并行计算，可以算作是对于数据的一个过滤+计算过程，对于需要计算的数据进行收集（map 阅读全文

posted @ 2018-07-06 21:39 张叫兽的技术研究院阅读(564) 评论(0) 推荐(0) 编辑

下士闻道