随笔分类 - Machine Learning
摘要:刚开始看书有些问题没有看懂,查阅了很多博客,发现说的很有道理但是又出现新的问题,这里谈谈我的理解: 一、目的和思想 有一些数据x和类别y,我们的目的是用这些数据做分类器,通过sigmoid函数(一种单位跃阶函数)实现分类: ƒ(z)=1/(1+e-z) 可以看到sigmoid函数值域(0,1),在0
阅读全文
摘要:这是一个基于概率的分类器,朴素是指具有简单的假设:一是哪个分类的概率大,就是哪一类,二是独立性假设详情见下。 贝叶斯公式:p(c|x)=p(x|c)p(c)/p(x);在学习概率论的时候,这个公式是具有逻辑的公式。 比如,我们对一句评论分为两类,一类是褒义,一类是贬义。 一、文本处理,将句子分词,大
阅读全文
摘要:输入没有标签的新数据后,将新数据的每个特征与样本数据集的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据(最近邻)的分类标签,一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处 一、加载数据 二、归一化特征值 三、计算欧式距离 from n
阅读全文
摘要:决策树的一个重要任务,就是为了理解数据中蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集创建规则的过程,就是机器学习的过程。 一、确定划分数据集的决定性特征 信息增益:划分数据集前后信息发生的变化 信息:l(xi)=-log2p(xi),p(xi)是选择
阅读全文