04 2013 档案

摘要:转自:http://blog.csdn.net/lixuemei504/article/details/7278748前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量... 阅读全文
posted @ 2013-04-28 15:26 huj690 阅读(272) 评论(0) 推荐(0)
摘要:python白皮书(11)—字符编码1、unicode编码世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,不但要知道它的编码方式,还要安装有对应编码表,否则就可能无法读取或出现乱码。为什么电子邮件和网页都经常会出现乱码,就是因为信息的提供者和信息的读取者... 阅读全文
posted @ 2013-04-23 10:26 huj690 阅读(265) 评论(0) 推荐(0)
摘要:算法数据挖掘classificationalgorithmgooglevector国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM... 阅读全文
posted @ 2013-04-19 10:10 huj690 阅读(344) 评论(0) 推荐(0)
摘要:本文根据ACL Wiki上的“Acronyms – the ABCs of CL and NLP”进行翻译整理,个别缩略语把握不准没有翻译,欢迎补充!ACL = Association for Computational Linguistics(计算语言学协会)AFNLP = Asian Feder... 阅读全文
posted @ 2013-04-16 10:05 huj690 阅读(532) 评论(0) 推荐(0)
摘要:转自 http://blog.sina.com.cn/wangzhaoli111、数学公式的前后要加上$或\(和\),比如:$f(x) = 3x + 7$和\(f(x) = 3x + 7\)效果是一样的;如果用\[和\],或者使用$$和$$,则改公式独占一行;如果用\begin{equation}和... 阅读全文
posted @ 2013-04-14 15:32 huj690 阅读(474) 评论(0) 推荐(0)
摘要:转自http://blog.csdn.net/zhzhl202/article/details/8197109之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下... 阅读全文
posted @ 2013-04-11 22:35 huj690 阅读(1250) 评论(0) 推荐(1)
摘要:课程文本分类project SVM算法入门转自:http://blog.csdn.net/yangliuy/article/details/7316496(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻 阅读全文
posted @ 2013-04-11 09:17 huj690 阅读(260) 评论(0) 推荐(0)