随笔分类 -  数据挖掘及算法

摘要:SVM(Support Vector Machine)有监督的机器学习方法,可以做分类也可以做回归。SVM把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。 有好几个模型,SVM基本,SVM对偶型,软间隔SVM,核方法,前两个有理论价值,后两个有实践价值。下图来 阅读全文
posted @ 2016-10-01 19:15 fionaplanet 阅读(799) 评论(0) 推荐(0) 编辑
摘要:一、什么是神经网络 神经网络模型(KNN)来源于生物体的神经系统,是一组连接的输入/输出单元,每个连接都与一个权重相关联。神经网络模式可以学习数据的特点,训练的数据不同,产生的模型不同。 应用场景:不知道用什么数学模型合适;知道应用什么模型但不知道模型复杂度时可以使用。比如要做分类问题,但属于非线性 阅读全文
posted @ 2016-09-27 20:16 fionaplanet 阅读(1987) 评论(0) 推荐(0) 编辑
摘要:首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树 阅读全文
posted @ 2016-09-21 21:00 fionaplanet 阅读(186312) 评论(3) 推荐(15) 编辑
摘要:一、聚类算法简介 聚类是无监督学习的典型算法,不需要标记结果。试图探索和发现一定的模式,用于发现共同的群体,按照内在相似性将数据划分为多个类别使得内内相似性大,内间相似性小。有时候作为监督学习中稀疏特征的预处理(类似于降维,变成K类后,假设有6类,则每一行都可以表示为类似于000100、010000 阅读全文
posted @ 2016-09-14 23:33 fionaplanet 阅读(35023) 评论(2) 推荐(1) 编辑
摘要:逻辑回归算法相信很多人都很熟悉,也算是我比较熟悉的算法之一了,毕业论文当时的项目就是用的这个算法。这个算法可能不想随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深的样子,可是绝对不能小看这个算法,因为它有几个优点是那几个算法无法达到的,一是逻辑回归的算法已经比较成熟,预测较为准确;二是 阅读全文
posted @ 2016-09-12 17:14 fionaplanet 阅读(38354) 评论(0) 推荐(0) 编辑
摘要:一、一些概念 线性相关:其中一个向量可以由其他向量线性表出。 线性无关:其中一个向量不可以由其他向量线性表出,或者另一种说法是找不到一个X不等于0,能够使得AX=0。如果对于一个矩阵A来说它的列是线性无关的,则AX=0,只有0解,此时矩阵A可逆。 秩:线性无关向量个数。 基: 特征向量:向量X经过矩 阅读全文
posted @ 2016-09-06 19:39 fionaplanet 阅读(7436) 评论(0) 推荐(0) 编辑
摘要:最近想拿一个DateCastle比赛上的关于预测客户人品的项目实际操作下我的sas,拿到数据后发现,最急需解决的问题是特征工程的问题,有1300多个维度的特征,自己想到的思路是由于这些特征是什么,都没有中文的说明,所以无法根据业务经验进行特征筛选,所以需要先通过相关性分析,然后再考虑PCA等方法,正 阅读全文
posted @ 2016-08-18 20:20 fionaplanet 阅读(333) 评论(0) 推荐(0) 编辑
摘要:听了一个Talkingdata的首席金融行业专家鲍忠铁老师的分享,收益良多,把讲的一些笔记写下来了~以后分析可以提供一些思路~要学的东西是在太多。。。感觉我要看的书都可以堆个20本。。。时间不够用555555555555555 一、金融行业数据分析思路 数字化运营、精准营销、数据风控(以前银行对于大 阅读全文
posted @ 2016-08-13 23:13 fionaplanet 阅读(10004) 评论(0) 推荐(0) 编辑
摘要:本文转载自http://mp.weixin.qq.com/s?__biz=MzA5ODUxOTA5Mg==&mid=401860790&idx=1&sn=8720a2a1d83f407087b665c753fc9fc9&scene=1&srcid=0811KwT9hjyqcbJYMISXaLbc#r 阅读全文
posted @ 2016-08-13 14:43 fionaplanet 阅读(11391) 评论(0) 推荐(0) 编辑