费弗里

2018年4月12日

摘要：一、简介在现实的机器学习任务中，自变量往往数量众多，且类型可能由连续型（continuou）和离散型（discrete）混杂组成，因此出于节约计算成本、精简模型、增强模型的泛化性能等角度考虑，我们常常需要对原始变量进行一系列的预处理及筛选，剔除掉冗杂无用的成分，得到较为满意的训练集，才会继续我们的阅读全文

posted @ 2018-04-12 21:15 费弗里阅读(3336) 评论(4) 推荐(1)

（数据科学学习手札24）逻辑回归分类器原理详解&Python与R实现

摘要：一、简介逻辑回归（Logistic Regression），与它的名字恰恰相反，它是一个分类器而非回归方法，在一些文献里它也被称为logit回归、最大熵分类器（MaxEnt）、对数线性分类器等；我们都知道可以用回归模型来进行回归任务，但如果要利用回归模型来进行分类该怎么办呢？本文介绍的逻辑回归就基阅读全文

posted @ 2018-04-12 14:44 费弗里阅读(6521) 评论(1) 推荐(1)

2018年4月6日

（数据科学学习手札23）决策树分类原理详解&Python与R实现

摘要：作为机器学习中可解释性非常好的一种算法，决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习阅读全文

posted @ 2018-04-06 14:47 费弗里阅读(3118) 评论(0) 推荐(1)

2018年4月1日

（数据科学学习手札22）主成分分析法在Python与R中的基本功能实现

摘要：上一篇中我们详细介绍推导了主成分分析法的原理，并基于Python通过自编函数实现了挑选主成分的过程，而在Python与R中都有比较成熟的主成分分析函数，本篇我们就对这些方法进行介绍： R 在R的基础函数中就有主成分分析法的实现函数princomp()，其主要参数如下： data：要进行主成分分析的目阅读全文

posted @ 2018-04-01 21:49 费弗里阅读(896) 评论(1) 推荐(1)

（数据科学学习手札21）sklearn.datasets常用功能详解

摘要：作为Python中经典的机器学习模块，sklearn围绕着机器学习提供了很多可直接调用的机器学习算法以及很多经典的数据集，本文就对sklearn中专门用来得到已有或自定义数据集的datasets模块进行详细介绍； datasets中的数据集分为很多种，本文介绍几类常用的数据集生成方法，本文总结的所有阅读全文

posted @ 2018-04-01 14:51 费弗里阅读(13679) 评论(0) 推荐(7)

2018年3月31日

（数据科学学习手札20）主成分分析原理推导&Python自编函数实现

摘要：主成分分析（principal component analysis,简称PCA）是一种经典且简单的机器学习算法，其主要目的是用较少的变量去解释原来资料中的大部分变异，期望能将现有的众多相关性很高的变量转化为彼此互相独立的变量，并从中选取少于原始变量数目且能解释大部分资料变异情况的若干新变量，达到降阅读全文

posted @ 2018-03-31 20:33 费弗里阅读(1791) 评论(0) 推荐(2)

2018年3月30日

（数据科学学习手札19）R中基本统计分析技巧总结

摘要：在获取数据，并且完成数据的清洗之后，首要的事就是对整个数据集进行探索性的研究，这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系，本篇笔者便基于R，对一些常用的数据探索方法进行总结： 1.描述性统计量部分 1.1 计算描述性统计量的常规方法 summary() summ 阅读全文

posted @ 2018-03-30 20:13 费弗里阅读(1444) 评论(0) 推荐(0)

（数据科学学习手札18）二次判别分析的原理简介&Python与R实现

摘要：上一篇我们介绍了Fisher线性判别分析的原理及实现，而在判别分析中还有一个很重要的分支叫做二次判别，本文就对二次判别进行介绍：二次判别属于距离判别法中的内容，以两总体距离判别法为例，对总体G1,，G2，当他们各自的协方差矩阵Σ1，Σ2不相等时，判别函数因为表达式不可化简而不再是线性的而是二次的，阅读全文

posted @ 2018-03-30 10:16 费弗里阅读(4908) 评论(0) 推荐(1)

2018年3月23日

（数据科学学习手札17）线性判别分析的原理简介&Python与R实现

摘要：之前数篇博客我们比较了几种具有代表性的聚类算法，但现实工作中，最多的问题是分类与定性预测，即通过基于已标注类型的数据的各显著特征值，通过大量样本训练出的模型，来对新出现的样本进行分类，这也是机器学习中最多的问题，而本文便要介绍分类算法中比较古老的线性判别分析：线性判别最早提出合理的判别分析法者是阅读全文

posted @ 2018-03-23 17:56 费弗里阅读(1510) 评论(0) 推荐(1)

2018年3月19日

（数据科学学习手札16）K-modes聚类法的简介&Python与R的实现

摘要：我们之前经常提起的K-means算法虽然比较经典，但其有不少的局限，为了改变K-means对异常值的敏感情况，我们介绍了K-medoids算法，而为了解决K-means只能处理数值型数据的情况，本篇便对K-means的变种算法——K-modes进行简介及Python、R的实现： K-modes是数据阅读全文

posted @ 2018-03-19 20:29 费弗里阅读(8640) 评论(0) 推荐(0)

数据科学玩家

公告