as_ - 博客园

mahout下的Canopy Clustering实现

摘要：转自：http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html为便于理解有修改一、基本思想1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最耗费计算的地方是计算对象相似性的时候，Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy ，通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况，可以把这一阶段看做数据预处理； Stage2、在各个C 阅读全文

posted @ 2012-07-18 16:46 as_ 阅读(4662) 评论(2) 推荐(0) 编辑

Logistic Regression--逻辑回归算法汇总**

摘要：转自别处有很多与此类似的文章也不知道谁是原创因原文由少于错误所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白并且有些复杂，后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Classifier)，并没有什么神秘的。在分类的情形下，经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 当测试样本集中的测试数据来到时，这一组权值按照与测试数据线性加和的方式，求出一个z值：z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某样本数据的各个特征，维度为m）之后按照si 阅读全文

posted @ 2012-07-18 14:06 as_ 阅读(78991) 评论(5) 推荐(9) 编辑

百度2010校招算法题之最大数字串

摘要：代码编写完成函数： int maxnumstr(char *inputstr, char *outputstr) 函数功能：找出inputstr中的最长连续数字串存储到outputstr里并返回长度，如调用maxnumstr("123abc1234a", outputstr)后返回4且outputstr中为"1234"。代码实现：（未验证正确性）int maxnumstr(char *inputstr, char *outputstr){ int i,j,count,max=-1; char *p,*pmax; for(i=0;inputstr[i]!= 阅读全文

posted @ 2012-07-18 13:33 as_ 阅读(1333) 评论(0) 推荐(1) 编辑

百度2010校招算法题之编译模块

摘要：算法设计某大型项目由n个组件N1, N2……Nn构成，每个组件都可以独立编译，但是某些组件的编译依赖于其它组件（即某些组件只能在其它组件编译完成后才能编译），设计算法给出统计过程。思路：拓扑排序算法语言伪代码：(1)初始化栈S(2)找出所有可执行的组件w，w进栈(3)while(栈S非空) v=栈顶元素出栈; if（v未被编译）编译v，并且输出v； foreach（更新与v相关的组件依赖参数） if(x=组件可被编译) x进栈；C伪码：void compileModel... 阅读全文

posted @ 2012-07-18 13:07 as_ 阅读(1403) 评论(0) 推荐(1) 编辑

深度优先遍历与广度优先遍历

摘要：深度优先遍历1．深度优先遍历的递归定义假设给定图G的初态是所有顶点均未曾访问过。在G中任选一顶点v为初始出发点(源点)，则深度优先遍历可定义如下：首先访问出发点v，并将其标记为已访问过；然后依次从v出发搜索v的每个邻接点w。若w未曾访问过，则以w为新的出发点继续进行深度优先遍历，直至图中所有和源点v有路径相通的顶点(亦称为从源点可达的顶点)均已被访问为止。若此时图中仍有未访问的顶点，则另选一个尚未访问的顶点作为新的源点重复上述过程，直至图中所有顶点均已被访问为止。图的深度优先遍历类似于树的前序遍历。采用的搜索方法的特点是尽可能先对纵深方向进行搜索。这种搜索方法称为深度优先搜索(Dept.. 阅读全文

posted @ 2012-07-18 10:42 as_ 阅读(52712) 评论(0) 推荐(6) 编辑

TF-IDF及其算法

摘要：概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。原理在一份给定的文件里，词频 (term frequency,. 阅读全文

posted @ 2012-07-17 15:03 as_ 阅读(97034) 评论(9) 推荐(10) 编辑

C++虚函数表机制解析(转)

摘要： C++中的虚函数的作用主要是实现了多态的机制。关于多态，简而言之就是用父类型别的指针指向其子类的实例，然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”，这是一种泛型技术。所谓泛型技术，说白了就是试图使用不变的代码来实现可变的算法。比如：模板技术，RTTI技术，虚函数技术，要么是试图做到在编译时决议，要么试图做到运行时决议。关于虚函数的使用方法，我在这里不做过多的阐述。大家可以看看相关的C++的书籍。在这篇文章中，我只想从虚函数的实现机制上面为大家一个清晰的剖析。当然，相同的文章在网上也出现过一些了，但我总感觉这些文章不是很容易阅读，大段大段的代码，没有图. 阅读全文

posted @ 2012-07-17 14:12 as_ 阅读(948) 评论(0) 推荐(0) 编辑

支持向量机(Support Vector Machine)-----SVM之SMO算法(转)

摘要：此文转自两篇博文有修改序列最小优化算法（英语：Sequential minimal optimization, SMO）是一种用于解决支持向量机训练过程中所产生优化问题的算法。SMO由微软研究院的约翰·普莱特（John Platt）发明于1998年，目前被广泛使用于SVM的训练过程中，并在通行的SVM库libsvm中得到实现。1998年，SMO算法发表在SVM研究领域内引起了轰动，因为先前可用的SVM训练方法必须使用复杂的方法，并需要昂贵的第三方二次规划工具。而SMO算法较好地避免了这一问题。前面最后留下来一个对偶函数最后的优化问题，原式为： -----------------这阅读全文

posted @ 2012-07-17 12:49 as_ 阅读(24968) 评论(1) 推荐(3) 编辑

排序算法汇总总结

摘要：一、插入排序直接插入排序（Insertion Sort）的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，通常采用in-place排序（即只需用到O(1)的额外空间的排序），因而在从后向前扫描过程中，... 阅读全文

posted @ 2012-07-17 09:47 as_ 阅读(29466) 评论(5) 推荐(4) 编辑

多态和C++多态的实现（汇总）

摘要：多态概念：多态（Polymorphism）按字面的意思就是“多种状态”。在面向对象语言中，接口的多种不同的实现方式即为多态。引用Charlie Calverts对多态的描述——多态性是允许你将父对象设置成为和一个或更多的他的子对象相等的技术，赋值之后，父对象就可以根据当前赋值给它的子对象的特性以不同的方式运作。简单的说，就是一句话：允许将子类类型的指针赋值给父类类型的指针。多态指同一个实体同时具有多种形式。它是面向对象程序设计（OOD）的一个重要特征。如果一个语言只支持类而不支持多态，只能说明它是基于对象的，而不是面向对象的。简单点说:“一个接口，多种实现”，就是同一种事物表现出的多种形态。C 阅读全文

posted @ 2012-07-16 18:54 as_ 阅读(4084) 评论(1) 推荐(0) 编辑

华山大师兄