随笔分类 -  机器学习

摘要:概述 在机器学习领域,主要有三类不同的学习方法: 监督学习(Supervised learning) 非监督学习(Unsupervised learning) 半监督学习(Semi-supervised learning) 定义 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函 阅读全文
posted @ 2017-05-03 23:31 北岛知寒 阅读(1500) 评论(0) 推荐(1) 编辑
摘要:前言 在机器学习中,“分类”和“回归”这两个词经常听说,但很多时候我们却混为一谈。本文主要从应用场景、训练算法等几个方面来叙述两者的区别。 本质区别 分类和回归的区别在于输出变量的类型。分类的输出是离散的,回归的输出是连续的。 定量输出称为回归,或者说是连续变量预测; 定性输出称为分类,或者说是离散 阅读全文
posted @ 2017-05-03 17:02 北岛知寒 阅读(1521) 评论(0) 推荐(0) 编辑
摘要:训练集、验证集和测试集这三个名词在机器学习领域极其常见,但很多人并不是特别清楚,尤其是后两个经常被人混用。 在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set),验证集(validation set),测试集(test set)。 Ripley, B. 阅读全文
posted @ 2017-04-20 11:48 北岛知寒 阅读(19810) 评论(1) 推荐(3) 编辑
摘要:`python notebook`是一个基于浏览器的python数据分析工具,使用起来非常方便,具有极强的交互方式和富文本的展示效果。jupyter是它的升级版,它的安装也非常方便,一般`Anaconda`安装包中会自带。安装好以后直接输入`jupyter notebook`便可以在浏览器中使用。但 阅读全文
posted @ 2017-04-19 22:03 北岛知寒 阅读(354) 评论(0) 推荐(0) 编辑
摘要:写在前面 最近在写论文过程中,研究了一些关于概率统计的算法,也从网上收集了不少资料,在此整理一下与各位朋友分享。 隐马尔可夫模型,简称HMM(Hidden Markov Model), 是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。 本文适用于对HMM感兴趣的入门 阅读全文
posted @ 2017-03-05 12:56 北岛知寒 阅读(14413) 评论(6) 推荐(4) 编辑
摘要:大数据是个铺天盖地的词,而谈论大数据又不可避免地要提到Hadoop,遗憾的是今天大多数大数据鼓吹者,甚至专业人士其实并不能说清楚Hadoop到底是什么玩意,以及有何功用,而他们的管理层小白听众更是一头雾水。 众所周知,Hadoop是Apache软件基金会管理的开源软件平台,但Hadoop到底是什么呢 阅读全文
posted @ 2016-12-24 15:58 北岛知寒 阅读(131) 评论(0) 推荐(0) 编辑
摘要:Hadoop组成 Hadoop有两个主要部分: 数据处理框架(MapReduce) 分布式数据存储文件系统(HDFS) 特点 适合的场景: 1. 大文件存储(TB,甚至PB) 2. 一次写,多次读(写入的数据无法进行更改,只在文件尾部添加数据) 3. 硬件要求低(适合多台廉价服务器搭建) 不适合的场 阅读全文
posted @ 2016-12-24 15:57 北岛知寒 阅读(393) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩