摘要:
public class HeapSort { public static void main(String[] args) { HeapSort sort = new HeapSort(); int[] a = {2,4,3,1,0,9,5,6,3,7}; sort.sort(a); for(int i = 0 ; i = 0 ; i--){ maxHeapify(a,i,a.length); } } private void sort(int[] a){ buildMaxHeap(a); for(int i = a.length - 1 ; i >= 0 ; i... 阅读全文
摘要:
一整数(有正有负)数组,用尽量少的时间计算数组中和为某个整数的所有子数组 1 public class SumK { 2 3 public static void main(String[] args) { 4 5 int[] array = {4,5,2,4,7,1,8,-3,6,3,2,6,1,4,-6,7,-4,2,-1,8,5,2,7,4,3}; 6 int k = 11; 7 Map set = new HashMap(); 8 int[] sum = new int[array.length... 阅读全文
摘要:
HADOOP-IPC(这里说的是1.0.4版本) 是轻量级RPC,在hadoop中主要用于2方面 1、TaskTracker和JobTracker 通讯。 2、NameNode和DataNode通讯。 3、DataNode和DataNode通讯。作者的意图是尽量暴露细节参数给用户从而达到增加灵活性(比如连接超时设置、并发业务处理器数量、队列长度设置等)。核心代码3000行左右。采用基于java-NIO非阻塞方式,设计中间有一些细节是很值得学习的。下图展示了IPC总体设计方式(其实是网路服务器架构方式,缺少业务处理模handler)一些细节: 1、hadoop更新版本迅速,所以I... 阅读全文
摘要:
package datastruct;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.List;public class DPTest { //动态规划练习题 public static void main(String[] args) { //青蛙回家问题 frogBackHome(); } //青蛙可以一次跳一步二步三步,它不喜欢碰石子,石子在某几点上(会列出N点有石子)问要怎么以碰到最少的石子为代价家对岸 private st... 阅读全文
摘要:
package basic;public class NextGen { /** * 实际上就是迭代正向子结构Next数组的变形 */ public static void main(String[] args) { int[] c = {13,43,4,65,12,34,12,5,90,123,54,72,99,22,18,7,9,1,58,93}; int[] a = new int[c.length]; a[0] = -1; int i = -1; for(int j = 1 ; j < c.length ; j++){ i = j - 1; if(c[j] >... 阅读全文
摘要:
package concurrentTest;import java.util.concurrent.BrokenBarrierException;import java.util.concurrent.Callable;import java.util.concurrent.ConcurrentHashMap;import java.util.concurrent.CyclicBarrier;import java.util.concurrent.ExecutionException;import java.util.concurrent.FutureTask;public class Si 阅读全文
摘要:
所有聚类方法都是可以抽象的聚类接口为以下:提供如下常量:提供一个默认的聚类点集在HDFS上的地址字符串:CLUSTERED_POINTS_DIR提供一个默认的聚类后形成的CLUSTER目录地址: INITIAL_CLUSTERS_DIR提供一个默认的聚类点集终极OUTPUT目录: CLUSTERS_DIR提供如下方法:int getId(); //得到某个CLUSTER的编好 Vector getCenter(); //得到中心点的N维向量 Vector getRadius(); //... 阅读全文
摘要:
一、相异度计算基于空间的距离1、欧几里得距离:2、曼哈顿距离:3、闵科夫斯基距离:(可见:欧氏距离和曼哈顿距离都是闵科夫斯基距离在P=1,2下的特例)标量规格化由于标量大小不一致导致对空间映射会同质化,所以需要对属性在[0,1]空间上映射,以来规格化。映射公式为: (ai 是一个属性)二、二元变量二元变量就是只能取0、1 的变量。二元相异度计算公式: 取值不同的同位属性个数 / 所有属性个数例如:X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1}。 二元相异度为 3/8非对称二元相异度计算公式:取值不同的同位属性个数/所有属性个数 - 值为0的同位属性个数非对称二. 阅读全文
摘要:
都交流啊,受不了了!!!! 阅读全文
摘要:
一、分类算法中的学习概念因为分类算法都是有监督学习,故分为以下2种学习。1、急切学习:在给定的训练元组之后、接受到测试元组之前就构造好分类模型。算法有:贝叶斯、基于规则的分类(决策树)、向后传播分类、SVM(支持向量机)、基于关联规则挖掘的分类。2、懒惰学习:直到给定一个测试元组才开始构造分类模型。也称为基于实例的学习法。算法有:KNN。二、KNN的特点优点:实现方便、支持增量学习、能对超多边形的复杂决策空间建模缺点:计算量开销大、大规模存储支持。三、KNN算法原理非常简单、就是在测试元组中找和训练元组向量空间上最接近的K个点中,类别最多的那个分类。向量空间距离无非那么几种:欧式、闵科夫斯基、 阅读全文