2016年4月7日

关于模型选择

摘要: 无论是分析还是预测,都有很多种方法,可以使用多种模型,在可以使用多种模型时,如何去选择,这是一个算法工程师常遇到的问题。下面是在工作 1. 用事实说话,直接评估各个模型结果的好坏。哪个结果好,就选哪个模型。这里评估模型好坏的指标要根据实际情况而定。一般情况下,有precision,recall,ro 阅读全文

posted @ 2016-04-07 21:50 BruceLv 阅读(161) 评论(0) 推荐(0) 编辑

2016年1月26日

最小堆

摘要: 前几天写dijkstra算法,想到了最小堆。今天整理了一下。发了出来。还是本着说明天的原则。代码没有进行压缩。 最小堆: 1、用数组表示时,假设当前根节点的下标为i , 则其两个子节点的下标分别为 2*i + 1 与 2*i + 2 2、最小堆的根节点的值小于其子节点的值,且其子节点与其对... 阅读全文

posted @ 2016-01-26 15:01 BruceLv 阅读(302) 评论(0) 推荐(0) 编辑

2016年1月22日

kmeans++

摘要: 前一阵子有一个学弟问kmeans算法的初始中心点怎么选,有没有什么算法。我让他看看kmeans++,结果学弟说有地方没看懂。然后,他不懂的地方,我给标注了一下。 下面是网上的资料,我对画线的地方做了标注。 k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的 阅读全文

posted @ 2016-01-22 11:55 BruceLv 阅读(8176) 评论(0) 推荐(0) 编辑

Dijkstra 算法

摘要: 今天又翻了翻算法导论,看了看dijstra算法。兴趣来了就实现了下。完全按照书上的步骤实现,没有使用最小堆等数据结构,使用的邻接表方式表示图。因此实现的算法效率很抵,不过这里只是想通过程序来说明这个算法。不是工程上用的。如果工程上使用,最好用矩阵表示图,然后再使用最小堆。。。。不多说了,直接上代码。... 阅读全文

posted @ 2016-01-22 10:53 BruceLv 阅读(313) 评论(0) 推荐(0) 编辑

2016年1月21日

mapreduce中获取输入文件的路径

摘要: InputSplit inputSplit = context.getInputSplit();String fileName = ((FileSplit) inputSplit).getPath().getName(); 阅读全文

posted @ 2016-01-21 15:37 BruceLv 阅读(1657) 评论(0) 推荐(0) 编辑

mapreduce数据不平衡时的处理方法

摘要: 用mr处理大数据经常遇到数据不平衡的情况,这里的数据不平衡指的是,数据中有少部分key集中了大量的数据,导致其它的reduce都运行完了,只剩几个reduce在跑。这种情况一般有如下三种解决方法(原理都差不多)。1、重写partitioner 如果一个key对应的数据过过,那么可以在partiti... 阅读全文

posted @ 2016-01-21 14:59 BruceLv 阅读(421) 评论(0) 推荐(0) 编辑

Partitioner

摘要: partitioner 是map中的数据映射到不同的reduce时的根据。一般情况下,partitioner会根据数据的key来把数据平均分配给不同的reduce,同时保证相同的key分发到同一个reduce。但当一个数据不平衡时,即某个key对应的数据量太大,导致reduce的空间不够,或者计... 阅读全文

posted @ 2016-01-21 14:11 BruceLv 阅读(345) 评论(0) 推荐(0) 编辑

Combiner

摘要: 如果job 设置了 combiner ,则job的每个map运行的数据会先进入combiner,然后再通过patitioner分发到reduce。通过combiner能减少reduce的计算、空间压力。其实combiner就是继承了Reducer类了一个子类,运行在map排序后的输出上。可以理解... 阅读全文

posted @ 2016-01-21 14:05 BruceLv 阅读(242) 评论(0) 推荐(0) 编辑

2015年5月23日

weka数据挖掘拾遗(三)----再谈如果何生成arff

摘要: 前一阵子写过一个arff的随笔,但是写完后发现有些啰嗦。其实如果使用weka自带的api,生成arff文件将变成一件很简单的事儿。首先,可以先把特征文件生成csv格式的。csv格式就是每列数据都用逗号分隔的一种格式。(还有不清楚的googling一下就知道了)一、首先看下特征文件怎么保存成csv格式... 阅读全文

posted @ 2015-05-23 21:33 BruceLv 阅读(1145) 评论(0) 推荐(0) 编辑

2014年9月13日

字符串位移

摘要: 闲来无事,想起上学时数据结构课程中有个字符串位移的小算法挺有意思,今天写了下,就测试了一个字符串,纯属娱乐。public class Offset { public static void swap(char [] chars , int position1 , int position2){ ... 阅读全文

posted @ 2014-09-13 14:21 BruceLv 阅读(721) 评论(0) 推荐(0) 编辑

导航