03 2017 档案
摘要:SAS信用评分之逻辑回归的变量选择关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈。这次的文章我想来讲逻辑回归。你会说逻辑回归就是三个方法:backwordstepwordforward有什么好讲的。如果...
阅读全文
摘要:SAS信用评分之逻辑回归的变量选择关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈。这次的文章我想来讲逻辑回归。你会说逻辑回归就是三个方法:backwordstepwordforward有什么好讲的。如果...
阅读全文
摘要:MATLAB技巧—sort和sortrows函数1、sort函数sort函数用于对数据进行排序,通过helpsort命令,可以查找到sort函数的具体用法:Y = SORT(X,DIM,MODE)has two optional parameters. DIM selects a dimen...
阅读全文
摘要:MATLAB技巧—sort和sortrows函数1、sort函数sort函数用于对数据进行排序,通过helpsort命令,可以查找到sort函数的具体用法:Y = SORT(X,DIM,MODE)has two optional parameters. DIM selects a dimen...
阅读全文
摘要:python—时间与时间戳之间的转换对于时间数据,如2016-05-0520:28:54,有时需要与时间戳进行相互的运算,此时就需要对两种形式进行转换,在Python中,转换时需要用到time模块,具体的操作有如下的几种:将时间转换为时间戳重新格式化时间时间戳转换为时间获取当前时间及将其转换成...
阅读全文
摘要:python—时间与时间戳之间的转换对于时间数据,如2016-05-0520:28:54,有时需要与时间戳进行相互的运算,此时就需要对两种形式进行转换,在Python中,转换时需要用到time模块,具体的操作有如下的几种:将时间转换为时间戳重新格式化时间时间戳转换为时间获取当前时间及将其转换成...
阅读全文
摘要:简单易学的机器学习算法—SVD奇异值分解一、SVD奇异值分解的定义 假设M是一个的矩阵,如果存在一个分解:其中的酉矩阵,的半正定对角矩阵,的共轭转置矩阵,且为的酉矩阵。这样的分解称为M的奇异值分解,对角线上的元素称为奇异值,称为左奇异矩阵,称为右奇异矩阵。二、SVD奇异值分解与特征值分解的...
阅读全文
摘要:简单易学的机器学习算法—SVD奇异值分解一、SVD奇异值分解的定义 假设M是一个的矩阵,如果存在一个分解:其中的酉矩阵,的半正定对角矩阵,的共轭转置矩阵,且为的酉矩阵。这样的分解称为M的奇异值分解,对角线上的元素称为奇异值,称为左奇异矩阵,称为右奇异矩阵。二、SVD奇异值分解与特征值分解的...
阅读全文
摘要:数据结构和算法—动态规划我一直最想做的就是机器学习,所以也都是在报机器学习的岗位,在BAT三家公司中,其实还是要讲百度吧,因为阿里在一面的时候就挂了,给我的理由是我投错了岗位(据面试官讲我应该去投算法岗,但我投的是数据挖掘),后来我在想,其实还就是我没能达到她的语气要求;腾讯就别讲了,连面试都...
阅读全文
摘要:数据结构和算法—动态规划我一直最想做的就是机器学习,所以也都是在报机器学习的岗位,在BAT三家公司中,其实还是要讲百度吧,因为阿里在一面的时候就挂了,给我的理由是我投错了岗位(据面试官讲我应该去投算法岗,但我投的是数据挖掘),后来我在想,其实还就是我没能达到她的语气要求;腾讯就别讲了,连面试都...
阅读全文
摘要:简单易学的机器学习算法—基于密度的聚类算法DBSCAN一、基于密度的聚类算法的概述 我想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别。 基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是...
阅读全文
摘要:简单易学的机器学习算法—基于密度的聚类算法DBSCAN一、基于密度的聚类算法的概述 我想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别。 基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是...
阅读全文
摘要:机器学习中的隐马尔科夫模型(HMM)详解在之前介绍贝叶斯网络的博文中,我们已经讨论过概率图模型(PGM)的概念了。Russell等在文献【1】中指出:“在统计学中,图模型这个术语指包含贝叶斯网络在内的比较宽泛的一类数据结构。” 维基百科中更准确地给出了PGM的定义:“Agraphical mo...
阅读全文
摘要:机器学习中的隐马尔科夫模型(HMM)详解在之前介绍贝叶斯网络的博文中,我们已经讨论过概率图模型(PGM)的概念了。Russell等在文献【1】中指出:“在统计学中,图模型这个术语指包含贝叶斯网络在内的比较宽泛的一类数据结构。” 维基百科中更准确地给出了PGM的定义:“Agraphical mo...
阅读全文
摘要:机器学习实战之PCA1. 向量及其基变换1.1 向量内积(1)两个维数相同的向量的内积定义如下: 内积运算将两个向量映射为一个实数.(2) 内积的几何意义假设A\B是两个n维向量, n维向量可以等价表示为n维空间中的一条从原点发射的有向线段, 为方便理解,在这里假设A和B都是二维向量.A=(...
阅读全文
摘要:机器学习实战之PCA1. 向量及其基变换1.1 向量内积(1)两个维数相同的向量的内积定义如下: 内积运算将两个向量映射为一个实数.(2) 内积的几何意义假设A\B是两个n维向量, n维向量可以等价表示为n维空间中的一条从原点发射的有向线段, 为方便理解,在这里假设A和B都是二维向量.A=(...
阅读全文
摘要:机器学习实战之Apriori1. 关联分析1.1 定义 关联分析是一种在大规模数据上寻找物品间隐含关系的一种任务.这种关系有2种形式:频繁项集和关联规则. (1) 频繁项集(frequent item sets): 经常出现在一起的物品的集合; (2) 关联...
阅读全文
摘要:机器学习实战之Apriori1. 关联分析1.1 定义 关联分析是一种在大规模数据上寻找物品间隐含关系的一种任务.这种关系有2种形式:频繁项集和关联规则. (1) 频繁项集(frequent item sets): 经常出现在一起的物品的集合; (2) 关联...
阅读全文
摘要:R语言之数据处理一、向量处理1.选择和显示向量data[1]data[3]data[1:3]data[-1]:除第一项以外的所有项data[c(1,3,4,6)]data[data>3]data[data7]:小于5或大于7的所有项which(data == max(data)):显示数值最大...
阅读全文
摘要:R语言之数据处理一、向量处理1.选择和显示向量data[1]data[3]data[1:3]data[-1]:除第一项以外的所有项data[c(1,3,4,6)]data[data>3]data[data7]:小于5或大于7的所有项which(data == max(data)):显示数值最大...
阅读全文
摘要:主成分分析(PCA)特征选择算法详解1. 问题真实的训练数据总是存在各种各样的问题:1、比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度...
阅读全文
摘要:主成分分析(PCA)特征选择算法详解1. 问题真实的训练数据总是存在各种各样的问题:1、比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度...
阅读全文
摘要:机器学习入门:K-近邻算法先来一个简单的例子,我们如何来区分动作类电影与爱情类电影呢?动作片中存在很多的打斗镜头,爱情片中可能更多的是亲吻镜头,所以我们姑且通过这两种镜头的数量来预测这部电影的主题。简单的说, k-近邻算法 采用了测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏...
阅读全文
摘要:机器学习入门:K-近邻算法先来一个简单的例子,我们如何来区分动作类电影与爱情类电影呢?动作片中存在很多的打斗镜头,爱情片中可能更多的是亲吻镜头,所以我们姑且通过这两种镜头的数量来预测这部电影的主题。简单的说, k-近邻算法 采用了测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏...
阅读全文
摘要:数据分析和个人提升数据分析,从工作技能的角度,除了业务直接相关的,也有相对比较通用的环节或技能单元,例如前面提到的目标确认、数据分解、归纳比较等,此外有时候还会涉及到最优化、数据图形化以及关系数据库等,和具体的专业领域也有关系。今天再补充一些数据最优化相关分析,及其在个人提升方面的拓展思考。先...
阅读全文
摘要:数据分析和个人提升数据分析,从工作技能的角度,除了业务直接相关的,也有相对比较通用的环节或技能单元,例如前面提到的目标确认、数据分解、归纳比较等,此外有时候还会涉及到最优化、数据图形化以及关系数据库等,和具体的专业领域也有关系。今天再补充一些数据最优化相关分析,及其在个人提升方面的拓展思考。先...
阅读全文
摘要:如何用SPSS做联合分析如果产品的描述是由几个属性特征决定的,比如说mp3的音质、外形、容量、价格等等,商家为了确定哪个属性对消费者的影响最大,以及预测什么样的属性组合最受消费者的欢迎,选择的办法应该就是联合分析了。事实上从抽样调查的角度来看,高质量和低价格的组合是消费者的最爱,但是这对商家而...
阅读全文
摘要:如何用SPSS做联合分析如果产品的描述是由几个属性特征决定的,比如说mp3的音质、外形、容量、价格等等,商家为了确定哪个属性对消费者的影响最大,以及预测什么样的属性组合最受消费者的欢迎,选择的办法应该就是联合分析了。事实上从抽样调查的角度来看,高质量和低价格的组合是消费者的最爱,但是这对商家而...
阅读全文
摘要:SPSS与Streams的集成实现实时预测SPSS Modeler 是一个数据挖掘工作台,提供了一个可了解数据并生成预测模型的最先进的环境。Streams提供了一个可伸缩的高性能环境,对不断变化的数据进行实时分析,这些数据中包括传统结构的数据和半结构化到非结构化数据类型。在实时处理需要高级分析...
阅读全文
摘要:SPSS与Streams的集成实现实时预测SPSS Modeler 是一个数据挖掘工作台,提供了一个可了解数据并生成预测模型的最先进的环境。Streams提供了一个可伸缩的高性能环境,对不断变化的数据进行实时分析,这些数据中包括传统结构的数据和半结构化到非结构化数据类型。在实时处理需要高级分析...
阅读全文
摘要:那些在大数据时代被边缘化的职业有哪些大数据随着并带着产业变革,带给时代的冲击不言而喻,这使很多企业、职业发生改变。例如,企业服务超过电子商务,成为国内投融资数量排名第一的行业,未来有望持续的做大做强。那么还有哪些正在发生改变的职业呢?即将消失的市场调查工作人员大数据提供分析能力这样的支持下,很...
阅读全文
摘要:那些在大数据时代被边缘化的职业有哪些大数据随着并带着产业变革,带给时代的冲击不言而喻,这使很多企业、职业发生改变。例如,企业服务超过电子商务,成为国内投融资数量排名第一的行业,未来有望持续的做大做强。那么还有哪些正在发生改变的职业呢?即将消失的市场调查工作人员大数据提供分析能力这样的支持下,很...
阅读全文
摘要:spss-数据抽取-拆分与合并数据抽取也成为数据拆分,是指保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新纪录。分为:字段拆分和随机抽样两种方法。一:字段拆分如何提取“身份证号码”字段。身份证号码里面包含了许多信息,例如省份、城市、出生日期、性别等等。我们将它抽取出来,就可以得...
阅读全文
摘要:spss-数据抽取-拆分与合并数据抽取也成为数据拆分,是指保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新纪录。分为:字段拆分和随机抽样两种方法。一:字段拆分如何提取“身份证号码”字段。身份证号码里面包含了许多信息,例如省份、城市、出生日期、性别等等。我们将它抽取出来,就可以得...
阅读全文
摘要:常见的数据分析方法有哪些对于每个科研工作者而言,对实验数据进行处理是在开始论文写作之前十分常见的工作之一。但是,常见的数据分析方法有哪些呢?常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。1、聚类分析(Cluster Analysis)聚类分析指将物理或抽象对...
阅读全文
摘要:常见的数据分析方法有哪些对于每个科研工作者而言,对实验数据进行处理是在开始论文写作之前十分常见的工作之一。但是,常见的数据分析方法有哪些呢?常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。1、聚类分析(Cluster Analysis)聚类分析指将物理或抽象对...
阅读全文
摘要:SPSS应用之非参数检验统计学的假设检验可以分为参数检验和非参数检验,参数检验是根据一些假设条件推算而来,当这些假设条件无法满足的时候,参数检验的效能会大打折扣,甚至出现错误的结果,而非参数检验通常是没有假设条件的,因此应用范围比参数检验要广。非参数检验在不做任何假设的情况下,最大限度的使用样...
阅读全文