摘要:
一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单“听取多人意见,最后综合决策”,但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午,邹博在我组织的机器学习班第8次课上讲决策树与Adaboost,其中,Adaboost讲得酣畅淋漓,讲完后,我知道,可以写本篇博客了。 无心啰嗦,本文结合邹博之决策树与Adaboost的PPT跟《统计学习方法》等参考资料写就,可以定义为一篇课... 阅读全文
摘要:
1.简单介绍 线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙。此外,实际中很多问题为非线性的,例如常见到的分段函数,不可能用全局线性模型来进行拟合。 树回归将数据集切分成多份易建模的数据,然后利用线性回归进行建模和拟合。这里介绍较为经典的树回归CART(classification and regr... 阅读全文
摘要:
C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结... 阅读全文
摘要:
Ridge Regression岭回归 数值计算方法的“稳定性”是指在计算过程中舍入误差是可以控制的。 对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说,如果主元(即对角线上的元素)上的元素很小,在计算时就会表现出病态的特征。 回归分析中常用的最小二乘法是一种无偏估... 阅读全文
摘要:
1.坐标系旋转 n是旋转的角度。将原坐标系逆时针旋转角度n后,形成新的坐标系。X’和Y’为新坐标系下点的坐标央而x和y为该点在原来坐标 系下的坐标。 等价于坐标点顺时针旋转后在原坐标系的坐标。 #计算坐标系逆时针旋转后的新坐标,注意不包括平移。 #等价于坐标点顺时针旋转后在原坐标系的坐标。 #假设以 阅读全文
摘要:
1.基本概念 中线:三角形一边中点与这边所对定点的连线段。 高线:从三角形一个顶点向它的对边所作的垂线段。 角平分线:平分三角形一角、一个端点在这一角的对边上的线段。 2.三角不等式 1) 三角形两边之和大于第三边,两边之差的绝对值小于第三边。如果两者相等,则是退化三角形。 2) 三角形任意一个外角 阅读全文
摘要:
1.两点间的距离:即两个点之间的线段的长度。 二维距离: 三维距离: 2.点到直线的距离:点和直线的距离是点到直线的垂直线段的长度 若在平面坐标几何上的直线定义为 ax + by + c = 0,点的座 标为(x0, y0), 则它们之间的距离为 3.异面直线间的距离 设两直线的方程分别为 : 则,该两直线间的距离 4.点到平面的距离 若点坐标为(x0, y0, z0), 平面为... 阅读全文
摘要:
我们可以获取canvas对象为var c=document.getElementById("myCanvas");其应有js属性方法如下列举:1:绘制渲染对象, c.getContext("2d"),获取2d绘图对象,无论我们调用多少次获取的对象都将是相同的对象。 2:绘制方法: clecrRect 阅读全文
摘要:
本文的安装只涉及了hadoop-common、hadoop-hdfs、hadoop-mapreduce和hadoop-yarn,并不包含HBase、Hive和Pig等。 http://blog.csdn.net/aquester/article/details/24621005 1. 规划 1.1. 阅读全文
摘要:
1、环境安装 gcc、gcc-c++、make、cmake、svn yum install lzo-devel zlib-devel gcc gcc-c++ make cmake autoconf automake libtool ncurses-devel openssl-devel 2、jdk的 阅读全文
摘要:
1。环境条件 2。VMware检查 3。虚拟机检查 1) vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=centos.smartmap GATEWAY=192.168.163.1 2)vi /etc/sysconfig/network-scrip 阅读全文
摘要:
1.修改IP vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static BROADCAST=192.168.75.255 I 阅读全文
摘要:
Server1 1.Update sudo apt-get update sudo apt-get upgrade 2. sudo apt-get install bridge-utils 3.IP 3.1 sudo vi /etc/network/interfaces ---------------------------------------------- auto lo iface... 阅读全文
摘要:
R语言举例 > x = c(29.6, 28.2, 19.6, 13.7, 13.0, 7.8, 3.4, 2.0, 1.9, 1.0, 0.7, 0.4, 0.4, 0.3, 0.3, 0.3, 0.3, 0.3, 0.2, 0.2, 0.2, 0.1, 0.1, 0.1, 0.1, 0.1) > a = hist(x,breaks=seq(-3,3,by=0.5)) > lines... 阅读全文
摘要:
频率直方图(frequency histogram)亦称频率分布直方图。统计学中表示频率分布的图形。在直角坐标系中,用横轴表示随机变量的取值,横轴上的每个小区间对应一个组的组距,作为小矩形的底边;纵轴表示频率(频数/组距=频率),并用它作小矩形的高,以这种小矩形构成的一组图称为频率直方图。 阅读全文
摘要:
四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的 阅读全文
摘要:
介绍 茎叶图(Stem-and-Leaf display)又称“枝叶图”,由统计学家约翰托奇( Arthur Bowley)设计,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面 阅读全文
摘要:
最近在摆弄数据离散度的时候遇到一种图形,叫做盒图(boxplot)。它对于显示数据的离散的分布情况效果不错。 盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(ma 阅读全文
摘要:
1.清屏 Ctrl + L 2.退出 q() 3.设置工作空间 getwd() setwd('D:\\Program Files\\RStudio\\workspace') 4.显档当前工作目录下的文件列表 list.files() choose.dir() dir("D:\\Program Fil 阅读全文
摘要:
package com.smartmap.algorithm.equation.differential.partial.ellipsoidal; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStream; import java.io.StringWriter;... 阅读全文