摘要:
消息 – 消息”是在两台计算机间传送的数据单位。消息可以非常简单,例如只包含文本字符串;也可以更复杂,可能包含嵌入对象。• 消息队列 消息队列是在消息的传输过程中保存消息的容器,消息传递中间人。 提供路由并保证消息的传递。 如果发送消息时接收者丌可用,消息队列会保留消息,直到可以成功地传递它。 阅读全文
摘要:
Flume是分布式的、可靠的、高可用的海量日志采集、聚合、传输系统。支持各种数据来源。 版本分为flume0.9x/flume-og和flume1.x/flume-ng,我们用的是flume-ng flume-og引入了zookeeper和master flume-ng去掉了zookeeper和ma 阅读全文
摘要:
转自http://www.code123.cc/959.html 先给出一个例子,后面会有扩展 题目 给你一个能生成1到5随机数的函数,用它写一个函数生成1到7的随机数。 (即:使用函数rand5()来实现函数rand7())。 解答 rand5可以随机生成1,2,3,4,5;rand7可以随机生成 阅读全文
摘要:
转自http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在 阅读全文
摘要:
转自:http://blog.csdn.net/hnyysly/article/details/38922105 所谓海量数据处理,就是基于海量数据上的存储、处理、操作。 海量就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是无法一次性装入内存。 解决办法: (1)针对时间,可以采用巧妙 阅读全文
摘要:
面试Hadoop工程师有哪些问题? wordcount mr java代码 1 public class WordCount { 2 public static class Map{ 3 static IntWritable one = new IntWritable(1); 4 Text word 阅读全文
摘要:
转自http://www.cnblogs.com/zhizhan/p/5038747.html 在大大小小的面试过程中,多次被问及这个问题:“请说一下逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点”。第一次被问到这个问题的时候,含含糊糊地说了一些,大多不在点子上,后来被问得多了,慢慢也就 阅读全文
摘要:
精确率 P = TP/(TP+FP) ; 反映了被分类器判定的正例中真正的正例样本的比重 召回率 R = TP/(TP+FN),反映了被正确分类的正样本占所有正样本的比例 准确率(Accuracy)A = (TP + TN)/(P+N) = (TP + TN)/(TP + FN + FP + TN) 阅读全文
摘要:
一 。机器学习算法中GBDT和XGBOOST的区别有哪些?(转自知乎https://www.zhihu.com/question/41354392/answer/98658997) xgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行? 传统GBDT以CART作 阅读全文
摘要:
固定步长的时候往往不能很快的梯度下降。 所以步长的选择也很重要。 下面的dk是搜索方向,在梯度下降中就是负梯度方向。 在这里是假设了h(a)是连续可导的函数,一般情况下也是这样。 找到合适的a有几种方式 1.简单的二分搜索 2.回溯法线性搜索 上式中小于等于号右边的式子是小于f(xk)的,因为dk是 阅读全文