摘要: 密度聚类 密度聚类方法的指导思想是,只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中去。这类算法优点在于可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度大,需要建立空间索引来降低计算量。 这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之 阅读全文
posted @ 2016-03-16 20:51 xmeo 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: 聚类 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小. 数据聚类算法可以分为结构性或者分散性,许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。 1.分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从 阅读全文
posted @ 2016-03-08 15:22 xmeo 阅读(19042) 评论(1) 推荐(0) 编辑
摘要: Bagging(Bootstrap aggregating) 让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练样本组成,某个初始训练样本在某轮训练集中可以出现多次或根本不出现,训练之后可得到一个预测函数序列h_1,⋯ ⋯h_n ,最终的预测函数H对分类问题采用投票方式,对回归问 阅读全文
posted @ 2016-02-24 16:55 xmeo 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 一.熵 自然界中的熵: 自封闭系统的运动总是倒向均匀分布: 1.自信息: 信息: i(x) = -log(p(x)) a.如果说概率p是对确定性的度量 b.那么信息就是对不确定性的度量 c.当一个小概率事件发生了,这个事件的信息量很大;反之如果一个大概率事件发生了,这个事件的信息量就很少。 2.熵: 阅读全文
posted @ 2016-02-20 15:22 xmeo 阅读(5188) 评论(0) 推荐(0) 编辑
摘要: 自然界中的熵: 自封闭系统的运动总是倒向均匀分布: 一.信息论基础 1.自信息: 信息: i(x) = -log(p(x)) a.如果说概率p是对确定性的度量 b.那么信息就是对不确定性的度量 c.当一个小概率事件发生了,这个事件的信息量很大;反之如果一个大概率事件发生了,这个事件的信息量就很少。 阅读全文
posted @ 2016-02-12 15:23 xmeo 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 我用的是anaconda环境 直接用anaconda安装 下面 两条命令: anaconda search -t conda 包名 conda install -c https://conda.anaconda.org/conda-forge 包名 python2.7 1. 安装numpy, sci 阅读全文
posted @ 2016-02-08 20:17 xmeo 阅读(1784) 评论(0) 推荐(0) 编辑
摘要: learning curve 可以很直观的看出我们的 model 学习的进度, 对比发现有没有 overfitting 的问题. 然后我们可以对我们的 model 进行调整, 克服 overfitting 的问题. 阅读全文
posted @ 2016-02-01 20:54 xmeo 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 通过validation_curve画出训练图,找到最合适的参数范围和参数 阅读全文
posted @ 2016-01-30 21:19 xmeo 阅读(871) 评论(0) 推荐(0) 编辑
摘要: 线性回归 线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。 线性回归有很多实际用途。分 阅读全文
posted @ 2016-01-26 10:09 xmeo 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 分割超平面 超平面: 数学中超平面是n维欧氏空间中余维度等于一的线性子空间。 超平面的最值与极值: 由于高维空间与一维空间不同,我们无法将一维空间的线性顺序(linear ordering)延伸到高维空间用于比较点的大小。所以,高维空间中的最值和极值的定义相对低维空间就变的复杂一些。对于集合而言,我 阅读全文
posted @ 2016-01-10 10:09 xmeo 阅读(273) 评论(0) 推荐(0) 编辑