摘要: 1、算法思路 通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的K个训练样例,K个样品中哪个类别的训练样品占比较多,则该分类样品就属于哪个类别。 2、算法步骤: (1)初始化距离为最大值 (2)计算未知样本和每个训练样本的距离dist (3)得到目前K各最临近样本中的最大距离maxdi 阅读全文
posted @ 2019-02-28 16:33 缄默1996 阅读(212) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-28 16:03 缄默1996 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 参考了数据挖掘算法书,捋出自己的思路,感觉也仅为思路 首先理解什么是后向传播,通过调整神将网络中连接输入与输出单元之间连接的权重来预测输入元组的类标号。通过这种方法迭代的处理训练元组数据集,把每个元组的网络预测和实际已知的目标值进行比较学习。 对于每个训练样本,修改权重是使得预测和实际目标值之间的均 阅读全文
posted @ 2019-02-27 22:28 缄默1996 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 有看过很多次的决策树算法,但是每次都是很容易忘记怎么去计算各种算法的度量值,再看一遍书,再归纳一遍 ID3,是求最大信息增益 对于样本D,类别数为K,数据集D的熵为 Ck是样本集D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示样本集合的元素个数 然后计算某个特征A对于数据集D的经验 阅读全文
posted @ 2019-02-26 14:17 缄默1996 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 一、结构化数据,看作关系型数据库的一张表,每列都有清晰的定义,包含了数值型、类别型两种类型,每一行数据代表一个样本的信息 二、非结构化数据,包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清洗的类别定义,而且每条数据的大小各不相同 1、特征归一化 对数值类型的特征做归一化 阅读全文
posted @ 2019-02-26 13:37 缄默1996 阅读(113) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-25 20:54 缄默1996 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 此为博客上常见的排序归纳,后期会利用Python进行代码实现 冒泡排序 遍历列表并比较相邻的元素对。如果元素顺序错误,则交换它们。重复遍历列表未排序部分的元素,直到完成列表排序。 选择排序 将输入列表/数组分为两部分:已经排序的子列表和剩余要排序的子列表,它们构成了列表的其余部分。我们首先在未排序的 阅读全文
posted @ 2019-02-24 21:36 缄默1996 阅读(73) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-24 21:15 缄默1996 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 我们是通过算法来找到数据之间的关联规则(两个物品之间可能存在很强的相关关系)和频繁项集(经常出现在一起的物品的集合)。 我们是通过支持度和置信度来定义关联规则和频繁项集的 一个项集支持度是指在所有数据集中出现这个项集的概率,项集可能只包含一个选项,也有可能是多个选项的组合。 置信度 针对于啤酒——> 阅读全文
posted @ 2019-02-23 23:49 缄默1996 阅读(3659) 评论(0) 推荐(0) 编辑
摘要: 一般对于算法模型的评估量有很多,常用到的是精确率和真正率(召回率)以及ROC曲线和PR曲线,之前也有提到,今天查找了一些资料对着四个评估量进行一个小总结。 1、首先是对一些概念的理解 TP 真正 是指预测为正样本,实际也是正样本的特征数 FP 假正 是预测为为正样本,实际为负样本的特征数 TN 真负 阅读全文
posted @ 2019-02-22 23:32 缄默1996 阅读(597) 评论(0) 推荐(0) 编辑