摘要:
一.K-Means算法的实现思路 1.1 初始化K个中心点 对于最初的k个中心结点的选取,采用的是随机选取的方式,首先是定义一个索引列表,然后根据文档的数量来生成随机数,当随机生成的索引不在索引列表中时将其添加到索引数组中去直至找齐k个中心结点的索引为止,然后利用索引去文档中找出对应的k个中心点,代 阅读全文
摘要:
一.数据说明 在进行正式的操作之前,对后续进行处理的数据进行说明,首先,从豆瓣电影网站爬取了电影对于的影评,然后进行了中文分词(jieba)和删除停用词操作,最后处理的结果展示如下如所示: 中文处理文档注意:后续的操作都是在经过上述步骤处理的文档基础上! 二.根据文档建立词频矩阵 2.1 什么是词频 阅读全文