随笔分类 - 机器学习
K-Means文档聚类实现
摘要:一.K-Means算法的实现思路 1.1 初始化K个中心点 对于最初的k个中心结点的选取,采用的是随机选取的方式,首先是定义一个索引列表,然后根据文档的数量来生成随机数,当随机生成的索引不在索引列表中时将其添加到索引数组中去直至找齐k个中心结点的索引为止,然后利用索引去文档中找出对应的k个中心点,代
利用余弦距离比较文档间的相似度
摘要:一.数据说明 在进行正式的操作之前,对后续进行处理的数据进行说明,首先,从豆瓣电影网站爬取了电影对于的影评,然后进行了中文分词(jieba)和删除停用词操作,最后处理的结果展示如下如所示: 中文处理文档注意:后续的操作都是在经过上述步骤处理的文档基础上! 二.根据文档建立词频矩阵 2.1 什么是词频
TF-IDF算法示例
摘要:0. 引入依赖 import numpy as np import pandas as pd 1. 定义数据和预处理 docA = "The cat sat on my bed" docB = "The dog sat on my knees" bowA = docA.split(" ") bowB
基于K-Means的文本聚类
摘要:一、聚类 “聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。” ——wikipedia “聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类是将数据分类到不同的类
文本聚类的一些概念
摘要:无监督的机器学习算法 无监督的机器学习算法属于 ML 算法系列,它们尝试从数据的各种属性的特征中发现其中潜在的、隐藏的结构和模式。此外,一些无监督学习算法也用来减少特征空间,通常是将高纬度的特征空间转变为低纬度的特征空间。这些算法所运行的数据基本上是没有预先分类的为标记数据。应用这些算法的目的是寻找
机器学习基础
摘要:第一章、机器学习的概念 1.1 机器学习是什么 什么是学习 从人的学习说起 学习理论;从实践经验中总结 在理论上推导;在实践中检验 通过各种手段获取知识或技能的过程 机器怎么学习? 处理某个特定的任务,以大量的“经验”为基础 对任务完成的好坏,给予一定的评判标准 通过分析经验数据,任务完成得更好了