1 4
摘要: 利用Logistic回归进行分类的思想就是:根据现有数据对分类边界线建立回归公式,以此进行分类。该算法最重要的就是要找到最佳拟合参数集。 本文介绍二值型输出分类器的数学原理。 针对这类问题:接收输入,输出为两个类别,这里假设为0和1,具有这样性质,且数学上容易处理的函数,有Sigmoid函数(S形函 阅读全文
posted @ 2017-09-09 21:17 韦木三 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 这篇文章将利用朴素贝叶斯分类对文档进行分类。 从文本中获取特征,需要先拆分文本,下面的代码直接创建词条向量形式的文本作为训练数据,函数有两个返回值,分别是训练数据和每条数据对应的类别组成的列表: 接着创建一个包含在所有文档中出现的不重复词的词汇表: 下面是对训练数据进行处理的函数,输入为词汇表和某个 阅读全文
posted @ 2017-09-09 21:08 韦木三 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 构建决策树需要解决的第一个问题就是:当前数据集上哪个特征在划分数据分类时起决定性作用。 下面的例子使用的是ID3算法解决上面的问题,对数据进行分类。 计算给定数据集的香农熵 下面是例子中用到的数据集,相对简单,但已经满足要求。 按照给定特征划分数据集 遍历整个数据集,循环计算香农熵,找到最好的特征划 阅读全文
posted @ 2017-09-09 21:04 韦木三 阅读(145) 评论(0) 推荐(0) 编辑
摘要: k近邻算法采用测量数据点之间的距离的方法进行分类。 样本数据集(训练样本集):样本集中每一数据与所属分类存在对应关系。 新数据分类:将新数据与训练样本集中数据进行比较,提取样本集中特征与新数据最相似(数据点之间的距离最小)的k个点,将这k个点的分类标签作为新数据的分类。 下面用该算法来改进约会网站配 阅读全文
posted @ 2017-09-09 15:00 韦木三 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 下面的例子来源为《机器学习实战》,例子只能识别0-9。 首先需要将图像二进制数据转化为测试向量: 接着是算法的实现代码: 阅读全文
posted @ 2017-09-09 14:51 韦木三 阅读(150) 评论(0) 推荐(0) 编辑