2018 年 7月随笔档案 - 张叫兽的技术研究院

Hadoop和云计算

摘要：什么是Hadoop？ Hadoop代表的就是基于异步存储（HDFS）的并行计算（Map-Reduce）。首先Hdsf/ Kudu他的存储是分布式的存储，hive（map-reduce）、impala、spark，他们计算方式都是并行计算模式。什么是云计算？云计算就是对于物理硬件的抽象；对外屏蔽集阅读全文

posted @ 2018-07-24 18:42 张叫兽的技术研究院阅读(198) 评论(0) 推荐(0) 编辑

MapReduce-线性回归

摘要：线性回归有是三个值很重要： 1. 斜率 2. 截距：x和y轴的交点值； 3. 显著性：数据偏离线性的程度，用以判断数据可以用线性表示的程度；拟合度 apache.commons.math3里面有一个simpleRegression专门用于做线性分析；通过add函数来进行添加x值和y值；基因聚合感阅读全文

posted @ 2018-07-23 22:24 张叫兽的技术研究院阅读(261) 评论(0) 推荐(0) 编辑

MapReduce-皮尔逊（Pearson）线性相关

摘要：Pearson相关系数解决了两个群的数据是否线性相关的问题；先补充一下基本概念：协方差：如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的阅读全文

posted @ 2018-07-22 14:00 张叫兽的技术研究院阅读(520) 评论(0) 推荐(0) 编辑

HBase的Scan

摘要：HBase的Scan和Get不同，前者获取数据是串行，后者则是并行；是不是有种大跌眼镜的感觉？ Scan有四种模式：scan，（Table）snapScan，（Table）scanMR，snapshotscanMR；前面两个是串行玩；后面两个是放置到MapReduce中玩；其中性能最好的就是Snap 阅读全文

posted @ 2018-07-20 22:32 张叫兽的技术研究院阅读(4376) 评论(0) 推荐(0) 编辑

摘要：fetch_data fetch_mldata默认路径是在scikit_learn_data路径下，mnist的mat文件其实直接放置到scikit_lean/mldata下面即可通过fetch_mldata中获取；当然路径信息其实是fetch_home函数中定义的；洗牌训练数据为了避免数据的有序对于训练的影响，有的时候需要对于数据进行随机排列；比如对于7万个手写数字的样本，前... 阅读全文

posted @ 2018-07-17 22:05 张叫兽的技术研究院阅读(197) 评论(0) 推荐(0) 编辑

Decision_function：scores，predict以及其他

摘要：机器学习的评估 PR曲线用于positive类数据占比比较小，或者你更加在意false postion（相比于false negative）；其他情况采用ROC曲线；比如Demo中手写体5的判断，因为只有少量5，所以从ROC上面来看分类效果不错，但是从PR曲线可以看到分类器效果不佳。 y_scores = sgd_clf.decision_function([some_digit]) deci... 阅读全文

posted @ 2018-07-17 22:02 张叫兽的技术研究院阅读(12658) 评论(0) 推荐(0) 编辑

混淆矩阵

摘要：混淆矩阵（Confusion Matrix）混淆矩阵是一个列表，里面包含了实际值和判断值的情况。下图是信息更加丰富的一张混淆矩阵图：作为良好的学习模型，TN和TP值是高的，FP和FN值=0；但是很多场景下FP和FN都不是0，那么怎么评价个分类学习的效果（performance）呢？ Accuracy：全准率 (TP+TN)/total = (100+50)/165 = ... 阅读全文

posted @ 2018-07-17 21:52 张叫兽的技术研究院阅读(830) 评论(0) 推荐(0) 编辑

机器学习之画图

摘要：关于画图在现实数字的时候代码如下：注意reshape参数里面是长和宽，一定要保证长*宽的值是784；否则就会和数据本身不符，运行报错；（28,28）可过，（1, 784）亦可以通过。 imshow是设置图片的展示，cmap意思是color map，颜色方案，binary代表是白底黑字；关于图谱阅读全文

posted @ 2018-07-17 21:45 张叫兽的技术研究院阅读(1115) 评论(0) 推荐(0) 编辑

RAFT算法

摘要：接触到RAFT是在学习KUDU的时候，KUDU的官方文档中一个连接指向了RAFT；只是觉得这个算法一定有其特点，要知道KUDU可以是一帮HBASE的大神写的。原始开始了解。 RAFT是一致性算法，说到一致性算法很多都会想到zookeeper，是的，这是我们接触比较多的内部包含一致性算法的应用产品了。zookeeper是基于Paxos。RAFT的假想敌无疑就是Paxos，因为RAFT的论文中全文... 阅读全文

posted @ 2018-07-10 13:15 张叫兽的技术研究院阅读(726) 评论(0) 推荐(0) 编辑

maven工程下的“run as application”

摘要：为了让maven能够在Terminal窗口执行（比在Console执行方便多了，命令行总是比右键选择run要快），需要配置如下的profile；然后敲入 mvn -test -Prun 即可。采用这种注意工程间的依赖需要都install才能够正常跑，因为他用的jar都是从mvn仓库中取值；而不再是阅读全文

posted @ 2018-07-10 12:59 张叫兽的技术研究院阅读(420) 评论(0) 推荐(0) 编辑

Spark机器配置计算

摘要：● Based on the recommendations mentioned above, Let's assign 5 core per executors => --executor-cores = 5 (for good HDFS throughput) ● Leave 1 core pe 阅读全文

posted @ 2018-07-09 23:37 张叫兽的技术研究院阅读(478) 评论(0) 推荐(0) 编辑

数学思路

摘要：数学的基本思路就是描绘一个范围，然后告诉你我只是关注这个范围里面的一部分。算法其实也是如此。阅读全文

posted @ 2018-07-08 16:08 张叫兽的技术研究院阅读(177) 评论(0) 推荐(0) 编辑

关联和依赖

摘要：依赖是临时关系，生命周期仅限于一个函数；关联（association）则是长久关系，一般为对象的属性，其生命周期和对象本身是一致的；聚合（aggregation）本身也是关联，但是其语义上是has-a的关系，同时保持独立；就像大楼和砖头的这种关系；大楼倒了，砖头其实还是可以存在的；再比如Cust 阅读全文

posted @ 2018-07-08 16:02 张叫兽的技术研究院阅读(201) 评论(0) 推荐(0) 编辑

spark数据倾斜

摘要：数据倾斜的主要问题在于，某个分区数量很巨大，在做map运算的时候，将会发生别的分区task很快计算完成，但是某几个分区task的计算成为了系统的瓶颈，明显超过其他分区时间； 1.方案：Kafka的随机主题如果kafka的topic和分区关联，而且kafka是专用的，那么其实kafka如果能够和随机阅读全文

posted @ 2018-07-07 23:06 张叫兽的技术研究院阅读(500) 评论(0) 推荐(0) 编辑

MapReduce – 基本思路之推荐引擎

摘要：理解MapReduce关键两个步骤；首先是构想出结构的数据结构，这种数据结构可以支撑你的业务分析使用；是要理解这种模式的处理元素。第二步，分析原始数据的结构是怎样的；第三步，基于原始数据结构以及目标数据结构，在分析map的实现逻辑，返回值什么，sort-shuffle之后的值什么，这个值也是r 阅读全文

posted @ 2018-07-07 22:59 张叫兽的技术研究院阅读(249) 评论(0) 推荐(0) 编辑

数据库的聚簇索引和非聚簇索引

摘要：华为面试提到了数据库（索引）的数据结构，当时懵逼了，于是调查一下。首先要讲一下索引的概念；所以其实是独立于数据而存储的；因为索引的用途是查询，所以存储的数据结构是B树（面试之后，我和面试官沟通了一下，数据库存储的数据结构是什么，结果被鄙视了）；索引/ 数据的存储一般是以页为单位的；那么为甚采用B树，而不是平衡二叉树之类的二叉树？因为B树可以有多个孩子，可以控制深度；二叉树则是一个节点只能有... 阅读全文

posted @ 2018-07-07 22:55 张叫兽的技术研究院阅读(492) 评论(0) 推荐(0) 编辑

什么是Map-Reduce

摘要：Map-Reduce本身并不是算法；而是一种处理模式；因为在大数据分布式这种场景下，处理数据运算和单机版不同；需要协同多台机器，并行计算；于是有了map-reduce这种模式，map阶段是数据处理，在各个机器上面进行并行计算，可以算作是对于数据的一个过滤+计算过程，对于需要计算的数据进行收集（map 阅读全文

posted @ 2018-07-06 21:39 张叫兽的技术研究院阅读(568) 评论(0) 推荐(0) 编辑

MapReduce-朴素贝叶斯

摘要：朴素贝叶斯（Native Bayes），贝叶斯在现实使用中是怎么玩的？不是根据A|B的概率获得B|A的概率，在现实中的玩法是：首先要明白贝叶斯是一种分类算法，因为是概率所以，他的应用领域其实是比较，那个分类的概率大就是哪个分类。常场景是属性和结论，比如天气，风向，温度这些维度属性来推断是否适合打阅读全文

posted @ 2018-07-06 13:25 张叫兽的技术研究院阅读(485) 评论(0) 推荐(0) 编辑

MapReduce-寻找三角形

摘要：在图中，如何判断三角形？三角形在很多场景都有应用，比如社交网络中确定人和人之间的关系。那么如果通过代码逻辑来实现呢？在数据结构之图中，区分三联体（有一端没有关联关系的三角形）和三角形是关键；两者之间的差别在于边的"度"，如果>=2，则可以断定点和边的关系是三角形。为什么度要>=2呢？因为如果一条边阅读全文

posted @ 2018-07-06 13:21 张叫兽的技术研究院阅读(264) 评论(0) 推荐(0) 编辑

Redis的多线程

摘要：Redis是单线程内部机制，那么怎么实现并发？在单机上部署多个Redis实例。阅读全文

posted @ 2018-07-05 22:35 张叫兽的技术研究院阅读(242) 评论(0) 推荐(0) 编辑

下士闻道

07 2018 档案

Hadoop和云计算

MapReduce-线性回归

MapReduce-皮尔逊（Pearson）线性相关

HBase的Scan

机器学习Hands On Lab

Decision_function：scores，predict以及其他

混淆矩阵

机器学习之画图

RAFT算法

maven工程下的“run as application”

Spark机器配置计算

数学思路

关联和依赖

spark数据倾斜

MapReduce – 基本思路之推荐引擎

数据库的聚簇索引和非聚簇索引

什么是Map-Reduce

MapReduce-朴素贝叶斯

MapReduce-寻找三角形

Redis的多线程

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论