摘要: 简单来说:邻域就是范围,密度就是该范围内样本的个数。 核心点:设定一个阈值M,如果在该邻域内不包括某点本身,样本的个数大于阈值M,则此点就是核心点。 对于一个数据集来说,大部分都是核心点,因为邻域是我随便给的嘛,不是核心点的就是非核心点。 边界点:若此点不是核心点,但是此点的邻域内包含一个或多个核心 阅读全文
posted @ 2020-01-01 18:39 淇则有岸 阅读(689) 评论(0) 推荐(1) 编辑
摘要: Mini Batch K-Means算法是K-Means算法的一种优化变种,采用小规模的数据子集(每次训练使用的数据集是在训练算法的时候随机抽取的数据子集)减少计算时间,同时试图优化目标函数; Mini Batch K-Means算法可以减少K- Means算法的收敛时间,而且产生的结果效果只是略差 阅读全文
posted @ 2020-01-01 17:30 淇则有岸 阅读(2412) 评论(0) 推荐(0) 编辑
摘要: 共有以下几种评价指标: 其中,仅轮廓系数比较合理,别的不过是牵强附会罢了,就差欺世盗名了。 混淆矩阵均- -性完整性V-measure调整兰德系数(ARI)调整互信息(AMI)轮廓系数(Silhouette) 轮廓系数: 阅读全文
posted @ 2020-01-01 17:28 淇则有岸 阅读(1121) 评论(0) 推荐(0) 编辑
摘要: 层次聚类方法(我们做算法的用的很少)对给定的数据集进行层次的分解或者合并,直到满足某种条件为止,传统的层次聚类算法主要分为两大类算法: ●凝聚的层次聚类: AGNES算法(AGglomerative NESting)==>采用自底向.上的策略。最初将每个对象作为一个簇,然后这些簇根据某些准则被一步一 阅读全文
posted @ 2020-01-01 17:20 淇则有岸 阅读(2560) 评论(0) 推荐(0) 编辑
摘要: XGboost算法 XGBoost是GBDT算法的一种改进,是一种常用的有监督集成学习算法;是一种伸缩性强、便捷的可并行构建模型的GradientBoosting算法。 原理是:在GBDT目标函数的基础上加入惩罚项,如下图绿框。通过限制树模型的叶子节点的个数和叶子节点的值来降低模型复杂度,从而防止过 阅读全文
posted @ 2020-01-01 16:04 淇则有岸 阅读(2084) 评论(0) 推荐(0) 编辑
摘要: GBDT(梯度提升迭代决策树) 总结 优先解决回归问题,将第一个数据的残差传入到第二个数据中去 构建下一个数据集的数据是上一个数据集的残差 详述 GBDT也是Boosting算法的一种,但是和AdaBoost算法不同;区别如下: AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值,然后 阅读全文
posted @ 2020-01-01 16:03 淇则有岸 阅读(676) 评论(0) 推荐(0) 编辑
摘要: 相似度判定: ①距离,公式: 我们使用以欧式距离为主 ②夹角余弦值:越大,相似度越高 内积/模长 ③杰卡德相似系数与相关系数 如上图,则说x1与x2相似,即为杰卡德相似系数,为保持和距离的性质一致性,所以1-杰卡德相似系数,相似系数也是一样 簇:聚类之后的类别,即为簇 聚类只有合理不合理,没有好与坏 阅读全文
posted @ 2020-01-01 16:02 淇则有岸 阅读(669) 评论(0) 推荐(0) 编辑
摘要: Boosting算法 关键点与难点在于如何修改数据 原理:将 含有m个数据的数据集 丢给一个弱学习器1分类,比如分对百分之60, 那么经过一定手段修改数据集,数据个数还是m个,将修改后的数据集扔给弱学习器2训练,学习器2把在学习器1中分错的那一部分又分对百分之三十。 再修改数据集,将修改后的数据集扔 阅读全文
posted @ 2020-01-01 14:04 淇则有岸 阅读(777) 评论(0) 推荐(0) 编辑
摘要: Bagging算法: 凡解:给定M个数据集,有放回的随机抽取M个数据,假设如此抽取3组,3组数据一定是有重复的,所以先去重。去重后得到3组数据,每组数据量分别是s1,s2,s3,然后三组分别训练组合成一个强模型。如下图: 随机森林算法: 一般用于大规模数据,百万级以上的。 在Bagging算法的基础 阅读全文
posted @ 2020-01-01 14:00 淇则有岸 阅读(752) 评论(0) 推荐(0) 编辑
摘要: 集成学习 ———————————————————————————————————————————— 集成算法 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。 弱分类器(weaklearner)指那些分类准确率只稍微好于随机猜测的分类器(准确率稍大于百分之50,可以是之前学 阅读全文
posted @ 2019-12-28 14:18 淇则有岸 阅读(408) 评论(0) 推荐(0) 编辑