摘要: 聚类 今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是 阅读全文
posted @ 2020-05-06 12:35 少年阿成 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 【关键词】支持向量,最大几何间隔,拉格朗日乘子法 一、支持向量机的原理 Support Vector Machine。支持向量机,其含义是通过支持向量运算的分类器。其中“机”的意思是机器,可以理解为分类器。 那么什么是支持向量呢?在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持 阅读全文
posted @ 2020-05-06 12:08 少年阿成 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 定义 贝叶斯方法 贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样 阅读全文
posted @ 2020-05-06 11:50 少年阿成 阅读(3012) 评论(0) 推荐(0) 编辑
摘要: LGBM Light GBM is a gradient boosting framework that uses tree based learning algorithm。 传统的GBDT算法存在的问题: 1、如何减少训练数据 常用的减少训练数据量的方式是down sample。例如在[5]中, 阅读全文
posted @ 2020-05-06 11:44 少年阿成 阅读(3847) 评论(0) 推荐(0) 编辑