随笔分类 - 机器学习
特征工程(3)-数据预处理归一化
摘要:既然讲到归一化和前面的标准化需要对比一下,首先二者处理的维度是不一样的,假设我们要处理的矩阵是 m*n 大小,m 个样本,n 维特征 标准化处理的方式是以列为单位,也就是处理的对象是 m∗kk=1……..nm∗kk=1……..n 归一化处理的方式却是以行为单位,处理的对象如下: k∗nk=1……..
阅读全文
特征工程(4)-数据预处理二值化
摘要:https://www.deeplearn.me/1389.html 上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理 这个应该很简单了,从字面意思就是将数据分为 0 或者 1,联想到之前图像处理里面二值化处理变为黑白图片 下面还是进入主题吧 首先给出当前的二值化处理公式: y={0if
阅读全文
特征工程(5)-数据预处理哑编码
摘要:https://www.deeplearn.me/1393.html 哑编码概念 先来讲解下哑编码的概念吧,当你的变量不是定量特征的时候是无法拿去进行训练模型的,哑编码主要是针对定性的特征进行处理然后得到可以用来训练的特征 关于定性和定量还是在这里也说明下,举个例子就可以看懂了 定性: 博主很胖 博
阅读全文
文本主题模型之LDA(一) LDA基础
摘要:https://www.cnblogs.com/pinard/p/6831308.html http://www.360doc.com/content/16/0428/10/478627_554452907.shtml LDA(Latent Dirichlet Allocation)是一种文档主题生
阅读全文
Adaboost入门教程——最通俗易懂的原理介绍(图文实例)
摘要:https://blog.csdn.net/px_528/article/details/72963977 写在前面 说到Adaboost,公式与代码网上到处都有,《统计学习方法》里面有详细的公式原理,Github上面有很多实例,那么为什么还要写这篇文章呢?希望从一种更容易理解的角度,来为大家呈现A
阅读全文
HMM模型和Viterbi算法
摘要:https://www.cnblogs.com/Denise-hzf/p/6612212.html 一、隐含马尔可夫模型(Hidden Markov Model) 1、简介 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是
阅读全文
初识马尔可夫和马尔可夫链
摘要:http://www.cnblogs.com/baiboy/p/hmm1.html 初识马尔可夫和马尔可夫链 作者:白宁超 2016年7月10日20:34:20 摘要:最早接触马尔可夫模型的定义源于吴军先生《数学之美》一书,起初觉得深奥难懂且无什么用场。直到学习自然语言处理时,才真正使用到隐马尔可夫
阅读全文
SVM学习(五):松弛变量与惩罚因子
摘要:https://blog.csdn.net/qll125596718/article/details/6910921 1.松弛变量 现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛
阅读全文
xgboost入门与实战(原理篇)
摘要:http://blog.csdn.net/sb19931201/article/details/52557382 前言: xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手
阅读全文
聚类分析经典算法讲解及实现
摘要:https://www.ibm.com/developerworks/cn/analytics/library/ba-1607-clustering-algorithm/index.html 前言 本文将系统的讲解数据挖掘领域的经典聚类算法,并给予代码实现示例。虽然当下已有很多平台都集成了数据挖掘领
阅读全文
对于随机森林的通俗理解
摘要:http://blog.csdn.net/mao_xiao_feng/article/details/52728164 一、决策树 决策树是机器学习最基本的模型,在不考虑其他复杂情况下,我们可以用一句话来描述决策树:如果得分大于等于60分,那么你及格了。 这是一个最最简单的决策树的模型,我们把及格和
阅读全文
机器学习算法之决策树
摘要:https://www.jianshu.com/p/6eecdeee5012 http://blog.csdn.net/HerosOfEarth/article/details/52347820 前言 决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗由多个判断节点组成
阅读全文
mahout推荐系统
摘要:本章包含以下内容: 首先看一下实战中的推荐系统 推荐引擎的精度评价 评价一个引擎的准确率和召回率 在真实数据集:GroupLens 上评价推荐系统 我们每天都会对喜欢的、不喜欢的、甚至不关心的事情有很多观点。这些事情往往发生的不知不觉。你在收音机上听歌,因为它容易记住或者因为听起来可怕而关注它 —
阅读全文
标签传播算法(Label Propagation)及Python实现
摘要:众所周知,机器学习可以大体分为三大类:监督学习、非监督学习和半监督学习。监督学习可以认为是我们有非常多的labeled标注数据来train一个模型,期待这个模型能学习到数据的分布,以期对未来没有见到的样本做预测。那这个性能的源头--训练数据,就显得非常感觉。你必须有足够的训练数据,以覆盖真正现实数据
阅读全文