缄默1996

2019年2月28日

摘要： 1、算法思路通过计算每个训练样例到待分类样品的距离，取和待分类样品距离最近的K个训练样例，K个样品中哪个类别的训练样品占比较多，则该分类样品就属于哪个类别。 2、算法步骤：（1）初始化距离为最大值（2）计算未知样本和每个训练样本的距离dist （3）得到目前K各最临近样本中的最大距离maxdi 阅读全文

posted @ 2019-02-28 16:33 缄默1996 阅读(229) 评论(0) 推荐(0)

概率论1

该文被密码保护。阅读全文

posted @ 2019-02-28 16:03 缄默1996 阅读(1) 评论(0) 推荐(0)

2019年2月27日

后向传播分类

摘要：参考了数据挖掘算法书，捋出自己的思路，感觉也仅为思路首先理解什么是后向传播，通过调整神将网络中连接输入与输出单元之间连接的权重来预测输入元组的类标号。通过这种方法迭代的处理训练元组数据集，把每个元组的网络预测和实际已知的目标值进行比较学习。对于每个训练样本，修改权重是使得预测和实际目标值之间的均阅读全文

posted @ 2019-02-27 22:28 缄默1996 阅读(167) 评论(0) 推荐(0)

2019年2月26日

计算方法

摘要：有看过很多次的决策树算法，但是每次都是很容易忘记怎么去计算各种算法的度量值，再看一遍书，再归纳一遍 ID3，是求最大信息增益对于样本D，类别数为K，数据集D的熵为 Ck是样本集D中属于第k类的样本子集，|Ck|表示该子集的元素个数，|D|表示样本集合的元素个数然后计算某个特征A对于数据集D的经验阅读全文

posted @ 2019-02-26 14:17 缄默1996 阅读(434) 评论(0) 推荐(0)

特征工程

摘要：一、结构化数据，看作关系型数据库的一张表，每列都有清晰的定义，包含了数值型、类别型两种类型，每一行数据代表一个样本的信息二、非结构化数据，包括文本、图像、音频、视频数据，其包含的信息无法用一个简单的数值表示，也没有清洗的类别定义，而且每条数据的大小各不相同 1、特征归一化对数值类型的特征做归一化阅读全文

posted @ 2019-02-26 13:37 缄默1996 阅读(125) 评论(0) 推荐(0)

2019年2月25日

杂谈

该文被密码保护。阅读全文

posted @ 2019-02-25 20:54 缄默1996 阅读(1) 评论(0) 推荐(0)

2019年2月24日

排序

摘要：此为博客上常见的排序归纳，后期会利用Python进行代码实现冒泡排序遍历列表并比较相邻的元素对。如果元素顺序错误，则交换它们。重复遍历列表未排序部分的元素，直到完成列表排序。选择排序将输入列表/数组分为两部分：已经排序的子列表和剩余要排序的子列表，它们构成了列表的其余部分。我们首先在未排序的阅读全文

posted @ 2019-02-24 21:36 缄默1996 阅读(85) 评论(0) 推荐(0)

数据挖掘项目完整应用案例分析

该文被密码保护。阅读全文

posted @ 2019-02-24 21:15 缄默1996 阅读(1) 评论(0) 推荐(0)

2019年2月23日

发现频繁项集的方法 Apriori算法

摘要：我们是通过算法来找到数据之间的关联规则（两个物品之间可能存在很强的相关关系）和频繁项集（经常出现在一起的物品的集合）。我们是通过支持度和置信度来定义关联规则和频繁项集的一个项集支持度是指在所有数据集中出现这个项集的概率，项集可能只包含一个选项，也有可能是多个选项的组合。置信度针对于啤酒——> 阅读全文

posted @ 2019-02-23 23:49 缄默1996 阅读(3835) 评论(0) 推荐(0)

2019年2月22日

算法模型的评估

摘要：一般对于算法模型的评估量有很多，常用到的是精确率和真正率（召回率）以及ROC曲线和PR曲线，之前也有提到，今天查找了一些资料对着四个评估量进行一个小总结。 1、首先是对一些概念的理解 TP 真正是指预测为正样本，实际也是正样本的特征数 FP 假正是预测为为正样本，实际为负样本的特征数 TN 真负阅读全文

posted @ 2019-02-22 23:32 缄默1996 阅读(624) 评论(0) 推荐(0)

公告