文章档案「2013年4月」 - huj690

特征选择方法之信息增益

摘要：转自：http://blog.csdn.net/lixuemei504/article/details/7278748前文提到过，除了开方检验（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而如何量... 阅读全文

posted @ 2013-04-28 15:26 huj690 阅读(272) 评论(0) 推荐(0)

python字符编码

摘要：python白皮书（11）—字符编码1、unicode编码世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，不但要知道它的编码方式，还要安装有对应编码表，否则就可能无法读取或出现乱码。为什么电子邮件和网页都经常会出现乱码，就是因为信息的提供者和信息的读取者... 阅读全文

posted @ 2013-04-23 10:26 huj690 阅读(265) 评论(0) 推荐(0)

数据挖掘十大经典算法

摘要：算法数据挖掘classificationalgorithmgooglevector国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM... 阅读全文

posted @ 2013-04-19 10:10 huj690 阅读(344) 评论(0) 推荐(0)

自然语言处理及计算语言学常见缩略语

摘要：本文根据ACL Wiki上的“Acronyms – the ABCs of CL and NLP”进行翻译整理，个别缩略语把握不准没有翻译，欢迎补充！ACL = Association for Computational Linguistics(计算语言学协会)AFNLP = Asian Feder... 阅读全文

posted @ 2013-04-16 10:05 huj690 阅读(532) 评论(0) 推荐(0)

LaTeX数学公式

摘要：转自 http://blog.sina.com.cn/wangzhaoli111、数学公式的前后要加上$或$和$，比如：$f(x) = 3x + 7$和$f(x) = 3x + 7$效果是一样的；如果用\[和\]，或者使用$$和$$，则改公式独占一行；如果用\begin{equation}和... 阅读全文

posted @ 2013-04-14 15:32 huj690 阅读(474) 评论(0) 推荐(0)

文本分类与SVM

摘要：转自http://blog.csdn.net/zhzhl202/article/details/8197109之前做过一些文本挖掘的项目，比如网页分类、微博情感分析、用户评论挖掘，也曾经将libsvm进行包装，写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下... 阅读全文

posted @ 2013-04-11 22:35 huj690 阅读(1250) 评论(0) 推荐(1)

SVM算法入门

摘要：课程文本分类project SVM算法入门转自：http://blog.csdn.net/yangliuy/article/details/7316496（一）SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻阅读全文

posted @ 2013-04-11 09:17 huj690 阅读(260) 评论(0) 推荐(0)

Summer Valley

胡小慢棒棒哒~

04 2013 档案

公告