摘要: 文件名全小写,可使用下划线 包应该是简短的、小写的名字。如果下划线可以改善可读性可以加入。如mypackage。 模块与包的规范同。如mymodule。 类总是使用首字母大写单词串。如MyClass。内部类可以使用额外的前导下划线。 函数&方法函数名应该为小写,可以用下划线风格单词以增加可读性。如: 阅读全文
posted @ 2018-04-24 13:32 寒杰士 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 原理 原理 C4.5算法是在ID3算法上的一种改进,它与ID3算法最大的区别就是特征选择上有所不同,一个是基于信息增益比,一个是基于信息增益。 之所以这样做是因为信息增益倾向于选择取值比较多的特征(特征越多,条件熵(特征划分后的类别变量的熵)越小,信息增益就越大);因此在信息增益下面加一个分母,该分 阅读全文
posted @ 2018-04-07 21:32 寒杰士 阅读(2301) 评论(0) 推荐(0) 编辑
摘要: 引言 决策树从本质上是从训练数据集上训练处一组分类规则,完全依据训练数据,所得规则容易发生过拟合,这也是决策树的缺点,不过可以通过决策树的剪枝,来提高决策树的泛化能力。 由此,决策树的创建可包括三部分:特征选择、决策树的生成以及决策树的剪枝;决策树的应用包括:分类、回归以及特征选择。 决策树最经典的 阅读全文
posted @ 2018-04-06 21:51 寒杰士 阅读(8466) 评论(1) 推荐(0) 编辑
摘要: 下表为是否适合打垒球的决策表,预测E= {天气=晴,温度=适中,湿度=正常,风速=弱} 的场合,是否合适中打垒球。 天气 温度 湿度 风速 活动 晴 炎热 高 弱 取消 晴 炎热 高 强 取消 阴 炎热 高 弱 进行 雨 适中 高 弱 进行 雨 寒冷 正常 弱 进行 雨 寒冷 正常 强 取消 阴 寒 阅读全文
posted @ 2018-04-06 21:27 寒杰士 阅读(5600) 评论(0) 推荐(1) 编辑
摘要: 决策树ID3算法的信息论基础 机器学习算法其实很古老,作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。 只是你有没有想过,有这么多条件,用哪个条件特征先做if,哪个条件特征后做if比较优呢?怎么准确的定量选择这个标准就是决策树机器学习算法的关键了。 19 阅读全文
posted @ 2018-04-06 11:50 寒杰士 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 分类树 分类决策树的核心思想就是在一个数据集中找到一个最优特征,然后从这个特征的选值中找一个最优候选值(这段话稍后解释),根据这个最优候选值将数据集分为两个子数据集,然后递归上述操作,直到满足指定条件为止。 1.最优特征怎么找? 这个问题其实就是决策树的一个核心问题了。我们常用的方法是更具信息增益或 阅读全文
posted @ 2018-04-05 13:47 寒杰士 阅读(3993) 评论(0) 推荐(1) 编辑
摘要: K-means与K-means++: 原始K-means算法最开始随机选取数据集中K个点作为聚类中心, 而K-means++按照如下的思想选取K个聚类中心: 假设已经选取了n个初始聚类中心(0<n<K),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心 阅读全文
posted @ 2018-04-02 20:12 寒杰士 阅读(48517) 评论(0) 推荐(5) 编辑
摘要: 介绍K均值算法: 优点:易于实现 缺点:可能收敛于局部最小值,在大规模数据收敛慢 算法思想较为简单如下所示: 选择K个点作为初始质心 repeat 将每个点指派到最近的质心形成K个簇 重新计算每个簇的质心 until簇不发生变化或达到最大迭代次数 这里的重新计算每个簇的质心,如何计算的是根据目标函数 阅读全文
posted @ 2018-04-02 18:05 寒杰士 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 什么是聚类分析 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。 不同的簇类型 聚类旨在发现有用的对象簇,在现实中我们用到很多的簇的类型,使用不同的簇类型划分数据的结果是不同的,如下的几种簇类型。 明显分离的 可以看到(a)中不同组中任意两 阅读全文
posted @ 2018-04-02 17:40 寒杰士 阅读(2085) 评论(0) 推荐(0) 编辑
摘要: LDA(Latent dirichlet allocation)是有Blei于2003年提出的三层贝叶斯主题模型,通过无监督的学习方法发现文本中隐含的主题信息, 目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。 隐性语义分析的实质是要利用文本中词项(te 阅读全文
posted @ 2018-04-01 19:45 寒杰士 阅读(10396) 评论(0) 推荐(1) 编辑