摘要: 公司布置了一个任务让写一个决策树,以前并未接触数据挖掘的东西,但作为一个数据挖掘最基本的知识点,还是应该有所理解的。 程序的源码可以点击这里进行下载,下面简要介绍一下决策树以及相关算法概念。 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。从数据产... 阅读全文
posted @ 2012-11-14 23:00 MichaelGD 阅读(7181) 评论(0) 推荐(0) 编辑
摘要: 这是一道比较传统的面试题,自己写了个10进制的求1个数的程序,后来在《编程之美》中发现上面的解法更好一些,随后有用它的方法重写了一遍2进制下的求解方法。 程序源码请点击这里下载。 对于自己写的10进制程序:主要思想还是从前期的分析得出来的: 1、先统计N的相应位置所对应的累加和数组 2、从前到后,根据所当前位置对应的位数,进行累加,即: 1)当当前为为1时,当前位置所对应的单位个数+低位数值+1; 2)当当前为为0时,用当前位置的数值*当前位置为所对应的1的单位总个数+低位数值; 3、求出当前位总和后,向下一位移位,递归累加 程序主要源码如下: 1 long long... 阅读全文
posted @ 2012-11-14 17:36 MichaelGD 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.blogjava.net/zhenandaci/category/31868.html(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[1 阅读全文
posted @ 2012-11-13 20:01 MichaelGD 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 来源 http://www.blogjava.net/zhenandaci/category/31868.html?Show=All文本分类入 门(一)文本分类问题的定义文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的SVM算法及其改进。 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就打它的屁屁(……)。注意这个定义当中着重强调的 阅读全文
posted @ 2012-11-13 20:00 MichaelGD 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 这是一道企业面试中,经常会被问到的面试题目。在网上看到一些此题的实现,其中有两种方法是比较适合编程的。本项目的源代码,请点击这里下载。方法一: 此方法是根据二叉树的DFS查找并标记祖先,根据递归出栈的原理,找到公共祖先。 其主要代码如下: 1 #include <iostream> 2 #include <list> 3 #include "LinerLCA.h" 4 5 //DFS左右子树,查找pNode是否存在 6 /*@param pRoot 根节点 7 /*@param pNode 需要查找的节点 8 /*@param path pNode所 阅读全文
posted @ 2012-11-12 19:27 MichaelGD 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 一、nutch 介绍(来自百度百科) Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的.. 阅读全文
posted @ 2012-11-11 22:20 MichaelGD 阅读(708) 评论(0) 推荐(1) 编辑