随笔分类 - 统计学
1
摘要:1. OSQPOSQP(Operator Splitting Quadratic Programming)是一个用于求解凸二次规划(Convex Quadratic Programming)问题的求解器。它基于“算子分裂”的优化方法,将二次规划问题分解为一系列小的子问题,并通过迭代的方式逐步求解
阅读全文
摘要:Cloud http://www.cnblogs.com/CloudMan6/tag/OpenStack/ 算法基础 http://www.cnblogs.com/ECJTUACM-873284962/p/6917031.html 海量数据处理算法总结【超详解】 http://www.cnblogs.com/ECJTUACM-873284962/p/6910842.html#37025...
阅读全文
摘要:时间序列分析算法【R详解】 https://www.analyticsvidhya.com/blog/2015/12/complete-tutorial-time-series-modeling/ http://www.cnblogs.com/ECJTUACM-873284962/p/6917031.html 简介 在商业应用中,时间是最重要的因素,能够提升成功率。然而绝大多数公司很难跟上...
阅读全文
摘要:牛顿迭代法(Newton's Method) 简介 牛顿迭代法(简称牛顿法)由英国著名的数学家牛顿爵士最早提出。牛顿法的作用是使用迭代的方法来求解函数方程的根。简单地说,牛顿法就是不断求取切线的过程。对于形如f(x)=0的方程,首先任意估算一个解x0,再把该估计值代入原方程中。由于一般不会正好选择到正确的解,所以有f(x)=a。这时计算函数在x0处的斜率,和这条斜率与x轴的交点x1。f(x)=0...
阅读全文
摘要:最大似然判别法 Bayes公式判别法
阅读全文
摘要:一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单“听取多人意见,最后综合决策”,但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午,邹博在我组织的机器学习班第8次课上讲决策树与Adaboost,其中,Adaboost讲得酣畅淋漓,讲完后,我知道,可以写本篇博客了。 无心啰嗦,本文结合邹博之决策树与Adaboost的PPT跟《统计学习方法》等参考资料写就,可以定义为一篇课...
阅读全文
摘要:1.简单介绍 线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙。此外,实际中很多问题为非线性的,例如常见到的分段函数,不可能用全局线性模型来进行拟合。 树回归将数据集切分成多份易建模的数据,然后利用线性回归进行建模和拟合。这里介绍较为经典的树回归CART(classification and regr...
阅读全文
摘要:1.两点间的距离:即两个点之间的线段的长度。 二维距离: 三维距离: 2.点到直线的距离:点和直线的距离是点到直线的垂直线段的长度 若在平面坐标几何上的直线定义为 ax + by + c = 0,点的座 标为(x0, y0), 则它们之间的距离为 3.异面直线间的距离 设两直线的方程分别为 : 则,该两直线间的距离 4.点到平面的距离 若点坐标为(x0, y0, z0), 平面为...
阅读全文
摘要:R语言举例 > x = c(29.6, 28.2, 19.6, 13.7, 13.0, 7.8, 3.4, 2.0, 1.9, 1.0, 0.7, 0.4, 0.4, 0.3, 0.3, 0.3, 0.3, 0.3, 0.2, 0.2, 0.2, 0.1, 0.1, 0.1, 0.1, 0.1) > a = hist(x,breaks=seq(-3,3,by=0.5)) > lines...
阅读全文
摘要:频率直方图(frequency histogram)亦称频率分布直方图。统计学中表示频率分布的图形。在直角坐标系中,用横轴表示随机变量的取值,横轴上的每个小区间对应一个组的组距,作为小矩形的底边;纵轴表示频率(频数/组距=频率),并用它作小矩形的高,以这种小矩形构成的一组图称为频率直方图。
阅读全文
摘要:四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的
阅读全文
摘要:介绍 茎叶图(Stem-and-Leaf display)又称“枝叶图”,由统计学家约翰托奇( Arthur Bowley)设计,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面
阅读全文
摘要:最近在摆弄数据离散度的时候遇到一种图形,叫做盒图(boxplot)。它对于显示数据的离散的分布情况效果不错。 盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(ma
阅读全文
摘要:1.清屏 Ctrl + L 2.退出 q() 3.设置工作空间 getwd() setwd('D:\\Program Files\\RStudio\\workspace') 4.显档当前工作目录下的文件列表 list.files() choose.dir() dir("D:\\Program Fil
阅读全文
摘要:1.1.1.1. 常用的相对数指标 1.1.1.1.1. 比(ratio) 比表示两个相关指标的值之商。这描述了一个指标的值是另一个指标值的几倍或几分之几。其计算公式为: 1.1.1.1.2. 比例(proportion) 比例表示某事物内部各组成部分的观察单位数与所有组成部分的总观察单位数之比。 (1)表示分布结构的比例, (2)表示某现象发生强度的比例, 式中:K是比例基数,它可以取值1...
阅读全文
摘要:1.1.1.1. 集中趋势的描述(central tendency) 描述集中趋势的主要统计指标有算术平均数、几何平均数、中位数,这些指标也称为位置度量指标(measures of location) 1.1.1.1.1. 算术平均数(arithmetic mean) 算术平均数适用于频数分布对称数据。在有离群值的情况下,或频数分布不对称时,不适合选用算术均数描述数据的平均水位。 (1)一般地,总...
阅读全文
摘要:频数分布表和频数分布图编制: (1)计算全距(rang,R)。 (2)确定组段数与组距:通常组段数取8~15组为宜。组距 全距/组段数 (3)确定组段的上下限:每一个组段的起点和终点,分别称为该组段的下限和上限;第一组段必须包括最小值,最后一组段必须包括最大值。 (4)统计各组段频数(frequency) (5)计算各组段频率(percent) (6)计算累计频数(cumulative freq...
阅读全文
摘要:http://www.lfd.uci.edu/~gohlke/pythonlibs/#sympy 1.1. Python 1.1.1. NumPy pip install numpy-1.11.0+mkl-cp34-cp34m-win_amd64.whl 1.1.2. SciPy pip install scipy-0.17.0-cp34-none-win_amd64.whl 1.1.3. mat...
阅读全文
1