随笔分类 - scikit-learn
分类、回归、聚类、降维、模型选择、预处理
摘要:TF IDF基础: TF IDF(Term Frequency InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见
阅读全文
摘要:DBSCAN聚类算法 基于密度的空间聚类算法,该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。 DBSCAN算法需要规定两个参数 epsilon:在一个点周围邻近区域半径 minPts:邻近区域内至少包含点个数 根据以上两个参数结合e
阅读全文
摘要:1 K Means 1.1算法原理 K是原始数据被聚集为K类,Means就是均值点,K Means均点。K Means的核心就是将一堆数据聚集为K个簇,每个簇中都有一个中心点称为均值点。簇中所有点到该簇的均值点的距离都较其他均值点更近。如下图: 1.2文字叙述 确定K值(就是把数据聚为几个类,K值是
阅读全文