摘要:
一、随机变量 可以取不同的值,不同的值有不同的概率。 看到随机变量取任何值,都要想到背后有个概率,如果是连续变量,在每一点的概率是0,连续型随机变量通常只考虑概率密度。 机器学习就是通过一堆随机变量预测另一个随机变量,先假设随机变量之间的概率分布,然后从数据中估计分布的参数。 任何概率模型的假设都是 阅读全文
摘要:
一直对于各种分类器评估的指标有点晕,今天决定琢磨下,并且写下来,方便以后回忆。 一、混淆矩阵 来源于信息论,根据上面的混淆矩阵,有3个指标需要搞清楚,我觉得记公式真的很容易搞混,建议大家都直接记文字加上自己理解就好了。 准确率=正确预测正负的个数/总个数(这个指标在python中的交叉验证时可以求准 阅读全文
摘要:
SVM(Support Vector Machine)有监督的机器学习方法,可以做分类也可以做回归。SVM把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。 有好几个模型,SVM基本,SVM对偶型,软间隔SVM,核方法,前两个有理论价值,后两个有实践价值。下图来 阅读全文
摘要:
一、什么是神经网络 神经网络模型(KNN)来源于生物体的神经系统,是一组连接的输入/输出单元,每个连接都与一个权重相关联。神经网络模式可以学习数据的特点,训练的数据不同,产生的模型不同。 应用场景:不知道用什么数学模型合适;知道应用什么模型但不知道模型复杂度时可以使用。比如要做分类问题,但属于非线性 阅读全文
摘要:
首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树 阅读全文
摘要:
一、聚类算法简介 聚类是无监督学习的典型算法,不需要标记结果。试图探索和发现一定的模式,用于发现共同的群体,按照内在相似性将数据划分为多个类别使得内内相似性大,内间相似性小。有时候作为监督学习中稀疏特征的预处理(类似于降维,变成K类后,假设有6类,则每一行都可以表示为类似于000100、010000 阅读全文
摘要:
逻辑回归算法相信很多人都很熟悉,也算是我比较熟悉的算法之一了,毕业论文当时的项目就是用的这个算法。这个算法可能不想随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深的样子,可是绝对不能小看这个算法,因为它有几个优点是那几个算法无法达到的,一是逻辑回归的算法已经比较成熟,预测较为准确;二是 阅读全文
摘要:
一、一些概念 线性相关:其中一个向量可以由其他向量线性表出。 线性无关:其中一个向量不可以由其他向量线性表出,或者另一种说法是找不到一个X不等于0,能够使得AX=0。如果对于一个矩阵A来说它的列是线性无关的,则AX=0,只有0解,此时矩阵A可逆。 秩:线性无关向量个数。 基: 特征向量:向量X经过矩 阅读全文
摘要:
#exercise1print "Hello world!"print "Hello Again"print "I like typing this."print "this is fun."print 'Yay! Printing.'print "I'd much rather you 'not' 阅读全文
摘要:
最近想拿一个DateCastle比赛上的关于预测客户人品的项目实际操作下我的sas,拿到数据后发现,最急需解决的问题是特征工程的问题,有1300多个维度的特征,自己想到的思路是由于这些特征是什么,都没有中文的说明,所以无法根据业务经验进行特征筛选,所以需要先通过相关性分析,然后再考虑PCA等方法,正 阅读全文