熊猫blue

2019年11月15日

摘要： 1. 当uninstall或者upgrade包时遇到类似下面的问题时： It is a distutils installed project and thus we cannot accurately determine which files belong to it which would l 阅读全文

posted @ 2019-11-15 19:39 熊猫blue 阅读(814) 评论(0) 推荐(0) 编辑

2019年11月9日

改变工作目录python

摘要：改变python的工作目录： import os os.getcwd() os.chdir('D:\data') os.getcwd() 另外如果是spyder还可以通过设置的方式：阅读全文

posted @ 2019-11-09 11:02 熊猫blue 阅读(231) 评论(0) 推荐(0) 编辑

2019年11月5日

keras的一些错误

摘要：明明安装了keras和tensorflow，可是import keras时，却出现错误：cannot import name 'tf_utils': 错误出现的原因是keras和tensorflow不兼容（tensorflow 1.7 应该下载keras 2.1.6版本），但是我安装的却如下：解决阅读全文

posted @ 2019-11-05 20:58 熊猫blue 阅读(924) 评论(0) 推荐(0) 编辑

2019年11月1日

softmax_entropy，binary_entropy，sigmoid_entropy

摘要：几种交叉熵之间的区别：参考： https://www.cnblogs.com/guqiangjs/p/8202899.html 阅读全文

posted @ 2019-11-01 22:41 熊猫blue 阅读(189) 评论(0) 推荐(0) 编辑

最近处理的一些函数

摘要：一、文本预处理 API 句子分割text_to_word_sequence，将一个句子拆分成单词构成的列表。注意这个函数对中文的分割无效。参数： text：字符串，待处理的文本 filters：需要滤除的字符的列表或连接形成的字符串，例如标点符号。默认值为 '!"#$%&()*+,-./:;<=> 阅读全文

posted @ 2019-11-01 15:58 熊猫blue 阅读(349) 评论(0) 推荐(0) 编辑

2019年10月26日

latent dirichlet allocation

摘要：一、Dirichlet-Multinomial共轭二、LDA=PLSA(Probabilistic Latent Semantic Analysis)+bayes 三、训练方法有gibbs sampling（吉布斯采样）和variation inference-EM算法（变分推断-EM算法）四、阅读全文

posted @ 2019-10-26 21:20 熊猫blue 阅读(345) 评论(0) 推荐(0) 编辑

TF-IDF、CountVectorizer

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2019-10-26 17:48 熊猫blue 阅读(0) 评论(0) 推荐(0) 编辑

re

摘要： python中的re库用于正则化，相当于一个过滤器，可以过滤掉不需要的字符，得到自己想要的。运行结果是：其中，\u4e00-\u9fa5表示匹配中文字符，\u4e00是在编码中中文字符开始的值，\u9fa5是中文字符结束的值。 jieba.posseg.cut(text) 可以对段落进行词的划分阅读全文

posted @ 2019-10-26 11:17 熊猫blue 阅读(386) 评论(0) 推荐(0) 编辑

2019年10月24日

常用的中文停用词

摘要：中文停用词，可以参考这个下载来创建适合自己的停用词阅读全文

posted @ 2019-10-24 14:31 熊猫blue 阅读(2594) 评论(0) 推荐(1) 编辑

jieba库对中文文本进行切割 python

摘要： jieba是中文文本用于分词的库，有3种模式：精确模式、全模式（所有可能的分割）、搜索引擎模式（在精确模式基础上再进行分割）具体参考PYPI 注：1.txt 得到的分词结果，统计次数的前5个答案如下，可以看出，这个中文文本分割只是简单分割，有一定的缺点：不能根据语义进行分割，文本的意思是大枣不好吃阅读全文

posted @ 2019-10-24 14:08 熊猫blue 阅读(2078) 评论(0) 推荐(0) 编辑

公告