Shendu.CC - 博客园

2018年5月31日

摘要： SVM 和线性分类器是分不开的。因为SVM的核心：高维空间中，在线性可分（如果线性不可分那么就使用核函数转换为更高维从而变的线性可分）的数据集中寻找一个最优的超平面将数据集分隔开来。所以要理解SVM首先要明白的就是线性可分和线性分类器。可以先解释这张图，通过这张图就可以了解线性分类器了。这是一阅读全文

posted @ 2018-05-31 14:00 Shendu.CC 阅读(2293) 评论(0) 推荐(0)

文本分类学习（九）SVM入门之拉格朗日和KKT条件

摘要：上一篇说到SVM需要求出一个最小的||w|| 以得到最大的几何间隔。求一个最小的||w|| 我们通常使用来代替||w||,我们去求解 ||w||2 的最小值。然后在这里我们还忽略了一个条件，那就是约束条件，在上一篇的公式（8）中的不等式就是n维空间中数据点的约束条件。只有在满足这个条件下，求解| 阅读全文

posted @ 2018-05-31 14:00 Shendu.CC 阅读(775) 评论(0) 推荐(0)

2018年5月9日

文本分类学习（七）支持向量机SVM 的前奏结构风险最小化和VC维度理论

摘要：前言: 经历过文本的特征提取，使用LibSvm工具包进行了测试，Svm算法的效果还是很好的。于是开始逐一的去了解SVM的原理。 SVM 是在建立在结构风险最小化和VC维理论的基础上。所以这篇只介绍关于SVM的理论基础。目录：文本分类学习（一）开篇文本分类学习（二）文本表示文本分类学习（三）特阅读全文

posted @ 2018-05-09 18:02 Shendu.CC 阅读(1942) 评论(1) 推荐(0)

2018年5月8日

文本分类学习（六） AdaBoost和SVM

摘要：直接从特征提取，跳到了BoostSVM，是因为自己一直在写程序，分析垃圾文本，和思考文本分类用于识别垃圾文本的短处。自己学习文本分类就是为了识别垃圾文本。中间的博客待自己研究透彻后再补上吧。因为获取垃圾文本的时候，发现垃圾文本不是简单的垃圾文本，它们具有多个特性： 1. 种类繁多，难有共同的特征阅读全文

posted @ 2018-05-08 16:18 Shendu.CC 阅读(3726) 评论(0) 推荐(0)

2018年4月26日

扩展随机数

摘要：随机数生成（1）可使用random等系统函数，构造函rand 15 ：在[1,5]范围，均匀分布随机函数（2）不可使用random，仅仅基于rand15构造rand112：在[1,12]范围，均匀分贝的随机函数 (3)函数randint26：在【2，3，4，5范围内等概率生成某个整数的随机函数。阅读全文

posted @ 2018-04-26 18:56 Shendu.CC 阅读(734) 评论(0) 推荐(0)

2018年4月24日

一道数据处理的算法题

摘要：有一份5000万个用户的数据，有一份2亿个用户看电影的记录。只有1G的内存，找到看电影最多的前1000个用户？应该怎么做呢？我一开始的想法，哎呀，快速排序！把2亿个用户的数据提取出来放到5000万长度的数组里进行快速排序。把2亿个用户的数据提取出来，只能靠HashMap了，那么就要在建一个500 阅读全文

posted @ 2018-04-24 10:24 Shendu.CC 阅读(263) 评论(0) 推荐(0)

2018年4月23日

文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）

摘要：前言：上一篇比较详细的介绍了卡方检验和卡方分布。这篇我们就实际操刀，找到一些训练集，正所谓纸上得来终觉浅，绝知此事要躬行。然而我在躬行的时候，发现了卡方检验对于文本分类来说应该把公式再变形一般，那样就完美了。目录：文本分类学习（一）开篇文本分类学习（二）文本表示文本分类学习（三）特征权重（阅读全文

posted @ 2018-04-23 10:51 Shendu.CC 阅读(9855) 评论(3) 推荐(2)

2018年4月20日

LeetCode 101 Symmetric Tree

摘要： Given a binary tree, check whether it is a mirror of itself (ie, symmetric around its center). For example, this binary tree [1,2,2,3,4,4,3] is symmet 阅读全文

posted @ 2018-04-20 17:41 Shendu.CC 阅读(367) 评论(0) 推荐(0)

事半功倍和事倍功半

摘要：这段时间，就体会到了什么叫做事倍功半，或者叫做事倍功零！一切都源于自己的浮躁和马虎。如果做为一个程序员，不能以冷静的思维，仔细的态度看待每次程序运行的结果，那么往往自己做的决策都是徒劳无功的，在折腾一大圈的时候才发现又回到了起点。这与一个人的心境息息相关。请不要在脑袋失去理智的时候做决定（有点言重阅读全文

posted @ 2018-04-20 11:35 Shendu.CC 阅读(931) 评论(0) 推荐(1)

2018年4月9日

文本分类学习（四）特征选择之卡方检验

摘要：前言：上一篇提到了特征提取，或者叫做降维。在文本分类中，特征提取算法的优劣对于文本分类的结果具有非常大的影响。所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。之前对卡方检验做过介绍：卡方检验是通过对特征进行打分然后排序，选阅读全文

posted @ 2018-04-09 17:55 Shendu.CC 阅读(21575) 评论(5) 推荐(6)

公告