摘要:
在机器学习中我们经常会遇到一个比较让人头疼的问题,就是样本类别比例失衡,在我第一次参加的Kaggle的比赛中,是一个而分类问题,给定的训练集样本中正负样本的比例大致达到惊人的1:1600。 通过网上搜集资料,其实针对这样的情况解决办法可以分为三种: 第一种: 将正向样本进行重复混入训练样本中 因为训 阅读全文
摘要:
首先我们应该对SVM的参数有一个详细的认知: sklearn.svm.SVC 参数说明: 本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方。(PS: libsvm中的二次规划问题的解决算法是SMO)。sklearn.svm.SVC(C=1.0, kernel='rbf', d 阅读全文
摘要:
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式。L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要。但是L1的求解过程,实在是太过蛋疼。所以即使L1能产生稀疏特征,不到万不得已,我们也还是宁可用L2正则,因为L2正则计算起来方便得多。。。 正则化项不应该以正则化的表 阅读全文
摘要:
无监督最近邻 NearestNeighbors (最近邻)实现了 unsupervised nearest neighbors learning(无监督的最近邻学习)。 它为三种不同的最近邻算法提供统一的接口:BallTree, KDTree, 还有基于 sklearn.metrics.pairwi 阅读全文
摘要:
SVC介绍: 拟合出来的模型为一个超平面 解决与样本维数无关,适合做文本分类 解决小样本、非线性、高维 是用于分类、回归、孤立点检测的监督学习方法的集合。 优点: 有效的高维空间 维数大于样本数的时候仍然有效 在决策函数中使用训练函数的子集 通用(支持不同的内核函数:线性、多项式、 s 型等) 缺点 阅读全文
摘要:
线性回归 Ridge 回归 (岭回归) Ridge 回归用于解决两类问题:一是样本少于变量个数,二是变量间存在共线性 RidgeCV:多个阿尔法,得出多个对应最佳的w,然后得到最佳的w及对应的阿尔法 Lasso 监督分类 估计稀疏系数的线性模型适用于参数少的情况,因其产生稀疏矩阵,可用与特征提取 s 阅读全文
摘要:
1 Package Contents 2 To train your own GloVe vectors, first you'll need to prepare your corpus as a single text file with all words separated by a single space. If your corpus has multiple document... 阅读全文
摘要:
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。 jieba的分词,提取关键词,自定义词语。 结巴分词的原理 原文链接:http://blog.csdn.net/HHTNAN/ 阅读全文
摘要:
用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。 class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window 阅读全文