07 2019 档案

摘要:聚类凝聚度和K值得选择 在聚类分析中,有的时候数据数量过多,我们用拐点发选择K值,横轴为聚类簇数的变化,纵轴为数据的凝聚度(SSE方差),当凝聚度的大小随着K值得增多降低数量较小时,证明,K值得增加对凝聚度的影响变小,那么选择拐点的K值是可行的,因为继续增加K值,对分类的准确度增加不高,但是会增加分 阅读全文
posted @ 2019-07-16 11:42 老王哈哈哈 阅读(943) 评论(0) 推荐(0) 编辑
摘要:参考博客:https://blog.csdn.net/weixin_39750084/article/details/81501395 阅读全文
posted @ 2019-07-13 15:56 老王哈哈哈 阅读(678) 评论(0) 推荐(0) 编辑
摘要:在进行聚类分析时,机器学习库中提供了kmeans++算法帮助训练,然而,根据不同的问题,需要寻找不同的超参数,即寻找最佳的K值 最近使用机器学习包里两个内部评价聚类效果的方法:clf=KMeans(n_clusters=k,n_jobs=20) 其中方法一:clf.inertia_是一种聚类评估指标 阅读全文
posted @ 2019-07-13 13:39 老王哈哈哈 阅读(8586) 评论(0) 推荐(1) 编辑
摘要:问题:在python绘图中,遇到想要调整图片大小的情况使用plt.figure(figuresize=xxx)没有效果 原因:没有考虑绘图时候的dpi参数,可导致放缩没有效果的现象 解决方法:通过在plt.figure()中添加dpi参数改变图片的额放缩效果 如plt.figure(dpi=xx)进 阅读全文
posted @ 2019-07-11 14:29 老王哈哈哈 阅读(15301) 评论(0) 推荐(0) 编辑
摘要:在进行jieba分词时,进行用户字典编写,会对分词进行个性化定制 一般而言,通过用户词典的方法能够对分词产生更具优秀的效果,尤其是在细粒度划分词句时候 添加用户词典的具体方法为:建立userdict的txt文本文件,每个词汇占据一行(每行可以有词汇,词频(可省略),词性(可省略))。用户词典具有强调 阅读全文
posted @ 2019-07-11 14:26 老王哈哈哈 阅读(352) 评论(0) 推荐(0) 编辑
摘要:在进行自然语言处理时候,遇到如下错误: 进行词语切分后,使用tfidf做词频矩阵,导致程序报出错误:MemoryError 报错原因:文本条数过大,导致内存超载,在这里 File "C:/Users/Administrator/Desktop/temp.py", line 49, in <modul 阅读全文
posted @ 2019-07-11 14:10 老王哈哈哈 阅读(1049) 评论(0) 推荐(0) 编辑