随笔分类 - AI 数据挖掘与机器学习概论
F:\工程硕士\d电子书\26 数据挖掘
scikit-learn源码学习之cluster.MeanShift
摘要:聚类部分的mean-shift算法终于看完了,网上这部分资料还是有些的,都是令人头疼数学公式,不过不如直接读源码来得直接些。
zcl-key!!!
#并行地在所有种子上执行迭代
#all_res为所有种子的迭代完的中心以及周围的邻居数
# execute iterations on all seeds in parallel
all_res = Parallel(n_jobs=n_jobs)(
delayed(_mean_shift_single_seed)
(seed, X, nbrs, max_iter) for seed in seeds)
#zcl-key!! 移动均值,这就是mean-shift名字的由来,每一步的迭代就是计算新的均值点
my_mean = np.mean(points_within, axis=0)
阅读全文
Nearest Neighbors 最近邻 综述
摘要:https://blog.csdn.net/mebiuw/article/details/51051453 Scikit-Learn 学习笔记(1) — Nearest Neighbors 最近邻 综述1 前言最近在做机器学习的作业,要用到Scilit-Learn这个东西,由于我这个人功利性比较明显
阅读全文
机器学习笔记:Gradient Descent
摘要:机器学习笔记:Gradient Descent http://www.cnblogs.com/uchihaitachi/archive/2012/08/16/2642720.html
阅读全文
数据挖掘十大经典算法(5) 最大期望(EM)算法
摘要:在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量象能够观测到的一样包含在内从而计算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算,这个过程不.
阅读全文
机器学习10大经典算法.doc
摘要:详见 F:\工程硕士\d电子书\26 数据挖掘小结:1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。2. The k-means algorithm
阅读全文