2019 年 7月随笔档案 - 老王哈哈哈

拐点处选择聚类K值

摘要：聚类凝聚度和K值得选择在聚类分析中，有的时候数据数量过多，我们用拐点发选择K值，横轴为聚类簇数的变化，纵轴为数据的凝聚度（SSE方差），当凝聚度的大小随着K值得增多降低数量较小时，证明，K值得增加对凝聚度的影响变小，那么选择拐点的K值是可行的，因为继续增加K值，对分类的准确度增加不高，但是会增加分阅读全文

posted @ 2019-07-16 11:42 老王哈哈哈阅读(943) 评论(0) 推荐(0) 编辑

python处理大规模数据时，出现memory

摘要：参考博客：https://blog.csdn.net/weixin_39750084/article/details/81501395 阅读全文

posted @ 2019-07-13 15:56 老王哈哈哈阅读(678) 评论(0) 推荐(0) 编辑

聚类时的轮廓系数评价和inertia_

摘要：在进行聚类分析时，机器学习库中提供了kmeans++算法帮助训练，然而，根据不同的问题，需要寻找不同的超参数，即寻找最佳的K值最近使用机器学习包里两个内部评价聚类效果的方法:clf=KMeans(n_clusters=k,n_jobs=20) 其中方法一：clf.inertia_是一种聚类评估指标阅读全文

posted @ 2019-07-13 13:39 老王哈哈哈阅读(8586) 评论(0) 推荐(1) 编辑

在python绘图中，遇到想要调整图片大小的情况使用plt.figure(figuresize=xxx)没有效果

摘要：问题：在python绘图中，遇到想要调整图片大小的情况使用plt.figure(figuresize=xxx)没有效果原因：没有考虑绘图时候的dpi参数，可导致放缩没有效果的现象解决方法：通过在plt.figure()中添加dpi参数改变图片的额放缩效果如plt.figure(dpi=xx)进阅读全文

posted @ 2019-07-11 14:29 老王哈哈哈阅读(15301) 评论(0) 推荐(0) 编辑

再NLP中遇到了词汇切分不合理的情况，添加用户字典

摘要：在进行jieba分词时，进行用户字典编写，会对分词进行个性化定制一般而言，通过用户词典的方法能够对分词产生更具优秀的效果，尤其是在细粒度划分词句时候添加用户词典的具体方法为：建立userdict的txt文本文件，每个词汇占据一行（每行可以有词汇，词频（可省略），词性（可省略））。用户词典具有强调阅读全文

posted @ 2019-07-11 14:26 老王哈哈哈阅读(352) 评论(0) 推荐(0) 编辑

在处理大批量的NLP词频矩阵时，出现memoryError的错误

摘要：在进行自然语言处理时候，遇到如下错误：进行词语切分后，使用tfidf做词频矩阵，导致程序报出错误：MemoryError 报错原因：文本条数过大，导致内存超载，在这里 File "C:/Users/Administrator/Desktop/temp.py", line 49, in <modul 阅读全文

posted @ 2019-07-11 14:10 老王哈哈哈阅读(1049) 评论(0) 推荐(0) 编辑

老王哈哈哈

07 2019 档案

公告