uumonkey - 博客园

[置顶] 关于统计系列文章的说明

摘要：我准备在博客园这个平台上写一些简单的介绍统计知识的文章，与大家一起讨论和学习。每一个问题我都准备分2~3讲来介绍，首先是用纯白话文来介绍基本思想（无任何公式），然后会适当做一些纯数学上的推导和讨论，最后会配合matlab讲一下它们的应用。如今，数据挖掘和机器学习是非常热门的，我也会尽量把统计知识与它们之间的联系和应用讲一下。在下学识疏浅，不足之处望多指教。Q&A：Q：为什么准备写这个系列的文章？A：我觉得在大数据时代懂一些基本的统计方法还是很有必要的，一些程序猿可能没有专门学过这方面的东西，所以我想写些东西就当做基础的入门读物吧~~~Q：为什么要用matlab?A：当然你也可以用sps 阅读全文

posted @ 2013-07-27 23:03 uumonkey 阅读(1056) 评论(5) 推荐(4) 编辑

2013年8月3日

统计知识选讲（三）——因子分析的思想

摘要：因子分析如同主成分分析（PCA）一样也是一种降维的方法，其思想与PCA也是相似的。它们最直观的区别在于因子分析是要构造出新的因子构造因子模型，而并非仅仅将原始变量的线性组合表示新的综合变量（PCA的升级版）。因子分析形式类似一个多元线性回归过程。首先要假象有一些公共因子和特殊因子，公共因子是不可观测的变量，而特殊因子是不能被公共因子包含的部分（随机部分），利用这些因子变量我们来线性表示原始变量，公共因子前的系数称为载荷因子。注意：因子分析与回归分析不同，因子分析中的因子是一个比较抽象的概念，而回归因子有非常明确的实际意义；另外，回归系数和载荷因子的形式和含义是截然不同的。因子模型形式： . 阅读全文

posted @ 2013-08-03 22:00 uumonkey 阅读(1725) 评论(0) 推荐(1) 编辑

2013年7月28日

统计知识选讲（二）——主成分分析（PCA）的推导和应用

摘要： 1、数学推导根据上讲的思想，我们可以用下图来进行数学上的推导.2、PCA的步骤1）对原始数据进行标准化处理：对该指标变量进行标准化，2）计算相关系数矩阵（协方差矩阵）3）计算相关系数矩阵的特征值和特征向量，得到新的指标标量。4）计算特征值的信息贡献率和累积贡献率，按一定规则选择主成分5）以主成分的贡献率为权重，构建主成分综合评价模型，计算综合评价值和排名3、应用实例——我国各地区普通高等教育发展综合评价案例背景不再详述，在此我们选取10个指标来评价30个省市他们的普通高等教育发展。数据：1）将上述数据标准化，计算协方差矩阵2）计算协方差矩阵的特征值和特征值贡献率3）根据特征值贡献率选取前四个特阅读全文

posted @ 2013-07-28 23:11 uumonkey 阅读(5969) 评论(0) 推荐(1) 编辑

2013年7月26日

统计知识选讲（一）——主成分分析（PCA）的思想

摘要：主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量，从而达到降维的目的。在原始数据“预处理”阶段通常要先对它们采用PCA的方法进行降维。本质上讲，PCA就是将高维的数据通过线性变换投影到低维空间上去，但并非随意投影，而是需要遵循一个规则：希望降维后的数据不能失真，也就是说被PCA降掉的那些维度只能是噪声或是冗余的数据。噪声可以理解为样本数据各维度之间的相关性干扰，冗余可以理解为没有的维度（何为没用？我们PCA处理的基础是保持数据的可区分性，如果该维度上样本数据变异度很小，那么留它何用~~）。以上是PCA的本质. 阅读全文

posted @ 2013-07-26 19:52 uumonkey 阅读(3267) 评论(0) 推荐(1) 编辑

2013年7月18日

数模学习笔记（八）——遗传算法

摘要： 1、遗传算法是非常好的非线性搜索算法，是一种全局寻优的近似方法2、遗传算法的步骤：1）将问题的解写成编码的形式，随机产生第一代种群。2）选择：选择一些染色体来产生下一代。根据适应度F(i)以比例选择算法从种群中选出2个个体。3）对选出的2个个体按交叉概率执行交叉操作，再按变异概率执行变异操作4）重插入：将处理后的2个个体加入新的种群。3、工具箱这里运用的工具箱是GATBX遗传算法工具箱1）创建随机的初始种群Chrom=crtbp(Nind, Lind)Nind种群个体数目，Lind是个体编码的长度；Chrom是Nind*Lind的矩阵2）选择适应度值Fitnv=rank(Objv)根据目标函数阅读全文

posted @ 2013-07-18 22:45 uumonkey 阅读(2927) 评论(0) 推荐(0) 编辑

2013年7月14日

数模学习笔记（六）——灰色系统

摘要： 1、我们将信息完全明确的系统称为白色系统，信息未知的系统称为黑色系统，部分信息明确、部分信息不明确的系统称为灰色系统。灰色系统着重外延明确、内涵不明确的对象，模糊数学着重外延不明确、内涵明确的对象。2、GM（1,1）的灰色预测1）数据的检验与处理：计算数列的级比，若都落在可容覆盖内则数据可以进行预测，否则进行平移变化2）建立模型a.建立灰微分方程确定参数的值b.应用上述参数值解白微分方程3）检验预测值：残差检验，级比偏差值检验3、GM（1,1）模型程序 1 %%GM(1,1)%% 2 function [x_0,u,range,derror,rho]=gm11(x0) %x0为列向量 3 n. 阅读全文

posted @ 2013-07-14 22:42 uumonkey 阅读(1405) 评论(0) 推荐(0) 编辑

2013年7月13日

数模学习笔记（五）——BP神经网络

摘要： 1、BP神经网络是一种前馈型网络（各神经元接受前一层的输入，并输出给下一层，没有反馈），分为input层，hide层，output层2、BP神经网络的步骤:1）创建一个神经网络：newffa.训练样本：归一化（premnmx ，postmnmx ，tramnmx）b.确定节点数：输出层的节点数可直接获得c.确定各层神经元的激活函数常见的激活函数：purelin:线性/logsig:对数S型/tansig:正切S型d.确定训练函数traingd ：梯度下降BP训练函数/traingdx ：梯度下降自适应学习率训练函数%Format:net = newff ( A, B, {C} ,‘trainF 阅读全文

posted @ 2013-07-13 20:03 uumonkey 阅读(6107) 评论(1) 推荐(1) 编辑

2013年7月9日

数模学习笔记（四）——AHP

摘要： 1.层次分析法是对复杂、较为模糊的问题作出决策的简易方法。2.步骤：（i）建立递阶层次结构模型：最高层（目标层），中间层（准则层），最底层（措施层）（ii）构造出各层次中的所有判断矩阵各准则在在目标衡量中所占的比重并不一定相同，采用判断矩阵A来定量评估n个因子对Z的影响：aij=Xi对Z的影响/Xj对Z的影响，用1~9标度。A是正互反矩阵。（iii）层次单排序及一致性检验计算一致性指标CI和CR来检验矩阵A的一致性（iv）层次总排序及一致性检验上面得到的是方案层单排序权值，总排序权重要自上而下地将单准则下的权重进行合成。CR值也是单准则下的CR的合成。3.AHP函数的matlab程序 1 %T 阅读全文

posted @ 2013-07-09 19:59 uumonkey 阅读(728) 评论(0) 推荐(1) 编辑

2013年7月4日

数模学习笔记（三）

摘要：本讲主要说一下微分方程的数值解法，在数模中常微分方程是经常会碰到的问题，我们还会附带说一下差分方程和偏微分方程的数值解法。微分方程的数值解法：1）显示解：dsolveexample:1 %farmat:dsolve('diff_equation'，'condition1，condition2，…'，'var')2 %example%3 y=dsolve('D3y-D2y=x','y(1)=8,Dy(1)=7,D2y(2)=4','x');介绍数值解前先做两个铺垫a.高阶微分方程初值问题化为一阶常微分阅读全文

posted @ 2013-07-04 22:51 uumonkey 阅读(362) 评论(0) 推荐(0) 编辑

2013年7月2日

数模学习笔记（二）

摘要： 1、插值首先说一下各种插值算法的原理lagrange:Newton:Hermit:spline:1）一维数据插值：interp11 %yi = interp1(x,Y,xi,method)2 yi = interp1(x,Y,xi,spline);method的缺省值为分段线性。2）三次样条插值：spline1 yy = spline(x,y,xx);3）散乱节点（知道三维坐标）插值：griddate1 ZZ=griddate(X,Y,Z,XX,YY');4）二维插值：interp2problem.1Solution:1 xx=0:50:5600;2 yy=0:50:4800;3 zz 阅读全文

posted @ 2013-07-02 22:59 uumonkey 阅读(367) 评论(0) 推荐(0) 编辑