随笔 - 383
文章 - 0
评论 - 0
阅读 -
35125
11 2017 档案
机器学习_总结篇_十大经典算法与算法选择
摘要:一、 数据挖掘十大经典算法 最近写了一些机器学习的文档,对应数据挖掘经典算法,列表如下: 1. 聚类K-Means 《机器学习_基于距离的算法KNN与K-Means》 2. 关联Apriori 《机器学习_规则与关联规则模型Apriori、FP-...
阅读全文
机器学习_规则与关联规则模型Apriori、FP-Growth
摘要:1. 何时使用规则模型 机器学习时常遇到一个问题:当数据并不完全可分时,分类器得分不高。真实世界中的数据经常是这样:各种无意义数据和少量有意义数据混在一起,无意义数据又没什么规律,无法统一去除。比如说,对股票外汇市场受各种因素影响,预测次日涨跌一般各算...
阅读全文
机器学习_基于距离的算法KNN与K-Means
摘要:1. 距离的量度 1) 距离 距离的定义是一个宽泛的概念:只要满足非负、自反、三角不等式就可以称之为距离。其中非负是指任意两个相异点的距离为正;自反是Dis(y,x)=Dis(x,y);三角不等式是Dis(x,z)<=Dis(x,y)+Dis(y,z...
阅读全文
机器学习_SVM支持向量机
摘要:1. 介绍 SVM支持向量机属于广义的线性模型,先回忆一下线性模型:可依据平面(多维)或直线(一维/二维)来理解模型。简单地说,可用一条线将两类分开,如下图所示。 能将两类分开的直线不止一条(左图),我们希...
阅读全文
机器学习_统计模型之(三)朴素贝叶斯
摘要:1. 条件独立假设 条件独立假设简单的说就是特征x1和x2没有关系,比如说兔子的特征中,尾巴短和爱吃萝卜这两个特征它们分别和兔子相关,但两特征彼此之间无关,不是说尾巴短的都爱吃萝卜。所以有p(x2|x1)=p(x2),即无论x1是什么,x2的概率都不变...
阅读全文
机器学习_统计模型之(二)贝叶斯网络
摘要:1. 贝叶斯网络 贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型。它用网络结构代表领域的基本因果知识。 贝叶斯网络中的节点表示命题(或随机变量),认为有依赖关系(或非条件独立)的命题用箭...
阅读全文
机器学习_统计模型之(一)贝叶斯公式
摘要:1. 贝叶斯法则 先举个例子:比如事件X是努力,事件Y是成功,能成功的基本都努力了(条件Y成立时,X必然成立);但是努力不一定都能成功(条件X成立时,Y不是一定成立)。也就是说,X与Y之间的关系不对等,但X和Y又确实有关系。贝叶斯法则就是用来描述这种关...
阅读全文
机器学习_用SVD奇异值分解给数据降维
摘要:本想把PCA和SVD写在一起,可上篇PCA还没写清楚就已经4页word了。再把SVD和特征工程的内容加上,实在是太长了,一下说太多也记不住,于是重开一篇。 SVD用到的原理和 PCA非常相似,就不再此赘述了,如果对特征值、特征向量相关问题不清楚请参见前...
阅读全文
机器学习_用PCA主成分分析给数据降维
摘要:有时我们的数据中包括很多属性,有些是没意义的,有些是重复的,有些组合后意义更明显。此时,我们需要简化属性节约算力,去噪,去冗余,求取更典型的属性,同时又希望不损失数据本身的意义。 主成分分析(Principal Component Analysis,P...
阅读全文
机器学习_用树回归方法画股票趋势线
摘要:本篇的主题是分段线性拟合,也叫回归树,是一种集成算法,它同时使用了决策和线性回归的原理,其中有两点不太容易理解,一个是决策树中熵的概念,一个是线性拟合时求参数的公式为什么是由矩阵乘法实现的。如需详解,请见前篇: 《机器学习_决策树与信息熵》 《机器学习...
阅读全文
机器学习_最小二乘法,线性回归与逻辑回归
摘要:1. 线性回归 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 直观地说,在二维情况下,已知一些点的X,Y坐标,统计条件X与结果Y的关系,画一条直线,让直线离所有点都尽量地近(距离之和最小),用直线...
阅读全文
机器学习_决策树与信息熵
摘要:1. 决策树 决策树(Decision Tree)是一种预测模型;它是通过一系列的判断达到决策的方法。下面是一个判断是否买房的例子,一共15个实例,有Age, Has_job, Own_house, Credit_rating四个属性,树的各个分叉是对...
阅读全文
机器学习_隐马尔可夫模型HMM
摘要:1. 马尔可夫链 马尔可夫链是满足马尔可夫性质的随机过程。马尔可夫性质是无记忆性。 也就是说,这一时刻的状态,受且只受前一时刻的影响,而不受更往前时刻的状态的影响。我们下面说的隐藏状态序列就马尔可夫链。 2. 隐马尔可夫模型 隐马尔可夫模型(H...
阅读全文
机器学习_集成算法
摘要:为什么使用集成算法 简单算法一般复杂度低,速度快,易展示结果,但预测效果往往不是特别好。每种算法好像一种专家,集成就是把简单的算法(后文称基算法/基模型)组织起来,即多个专家共同决定结果。 如何组织算法和数据 这里我们的着眼点不是某个算法,某个函...
阅读全文
大数据竞赛平台——Kaggle入门
摘要:在学习了一些数据挖掘和机器学习的算法之后,需要积累实际开发经验。在实践的过程中不仅需要自己摸索,还需要向牛人学习和请教。Kaggle就提供这样的数据平台,企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,开发者其数据下载到本地,分析,处...
阅读全文
百度自动驾驶系统Apollo源码分析
摘要:Apollo(阿波罗)是百度今年发布的汽车自动驾驶系统,它是不是可以无人驾驶?安全性又如何保证?下面我们就来看看自动驾驶指的是什么,以及它是如何实现的. 自动驾驶评级 先来看看什么是自动驾驶,2014年,SAE International(国际汽车...
阅读全文
AlphaGo Zero与增强学习
摘要:2017年10月19日凌晨,DeepMind 在《自然》杂志上发表了一篇论文,正式推出人工智能围棋程序的最新版本——AlphaGo Zero. AlphaGo Zero成长史 最初AlphaGo Zero除了围棋的基本规则以外,没有任何关于围棋的知识; 3...
阅读全文
深度学习_总结篇
摘要:前篇总结 深度学习_简介及相关概念 http://blog.csdn.net/xieyan0811/article/details/78401473深度学习_工具 http://blog.csdn.net/xieyan0811/article/detai...
阅读全文
深度学习_循环神经网络RNN与LSTM
摘要:1. 循环神经网络RNN 1) 什么是RNN? 循环神经网络(RNN)是一种节点定向连接成环的人工神经网络。具体应用有语音识别,手写识别,翻译等. 2) 什么时候使用RNN? FNN(前馈神经网络,如BP,CNN等)效果已经不错了,RNN还需要更大...
阅读全文
深度学习_卷积神经网络CNN
摘要:1. 引入 卷积神经网络(CNN)是一种专门用来处理具有网格结构数据的神经网络.它属于前馈神经网络,它被定义为:至少在某一层用卷积代替了矩阵乘法的神经网络.最常见的应用场景是图像识别. 前篇我们自己动手,用Python实现了一个BP神经网络,本篇我们在K...
阅读全文
深度学习_BP神经网络
摘要:1. 说明 现在使用深度学习算法都以调库为主,但在使用库之前,先用python写一个最基本的神经网络的程序,也非常必要,它让我们对一些关键参数:学习率,批尺寸,激活函数,代价函数的功能和用法有一个直观的了解。 2. 原理 1) BP神经网络 ...
阅读全文
深度学习_工具
摘要:1. 引入 深度学习的工具有很多Tensorflow, Theano, Caffe, Keras, MXNet, Scikit-learn…有用c++写的,有用Python写的,还有R的,Java的,从哪里入手呢? 先看看最热门的Tensorflow,它...
阅读全文