scikit-learn - 随笔分类 - 是阿凯啊

scikit-learn TF-IDF

摘要：TF IDF基础: TF IDF（Term Frequency InversDocument Frequency）是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法，根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见阅读全文

posted @ 2020-04-30 10:41 是阿凯啊阅读(294) 评论(0) 推荐(0)

scikit-learn聚类---机器学习算法之DBSCAN算法

摘要：DBSCAN聚类算法基于密度的空间聚类算法，该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。 DBSCAN算法需要规定两个参数 epsilon:在一个点周围邻近区域半径 minPts:邻近区域内至少包含点个数根据以上两个参数结合e 阅读全文

posted @ 2019-12-29 14:58 是阿凯啊阅读(1316) 评论(0) 推荐(0)

scikit-learn聚类---机器学习算法之K-Means算法

摘要：1 K Means 1.1算法原理 K是原始数据被聚集为K类，Means就是均值点，K Means均点。K Means的核心就是将一堆数据聚集为K个簇，每个簇中都有一个中心点称为均值点。簇中所有点到该簇的均值点的距离都较其他均值点更近。如下图： 1.2文字叙述确定K值（就是把数据聚为几个类，K值是阅读全文

posted @ 2019-12-29 14:52 是阿凯啊阅读(1548) 评论(0) 推荐(0)

阿凯

随笔分类 - scikit-learn

公告