摘要: 1. 当uninstall或者upgrade包时遇到类似下面的问题时: It is a distutils installed project and thus we cannot accurately determine which files belong to it which would l 阅读全文
posted @ 2019-11-15 19:39 熊猫blue 阅读(814) 评论(0) 推荐(0) 编辑
摘要: 改变python的工作目录: import os os.getcwd() os.chdir('D:\data') os.getcwd() 另外如果是spyder还可以通过设置的方式: 阅读全文
posted @ 2019-11-09 11:02 熊猫blue 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 明明安装了keras和tensorflow,可是import keras时,却出现错误:cannot import name 'tf_utils': 错误出现的原因是keras和tensorflow不兼容(tensorflow 1.7 应该下载keras 2.1.6版本),但是我安装的却如下: 解决 阅读全文
posted @ 2019-11-05 20:58 熊猫blue 阅读(924) 评论(0) 推荐(0) 编辑
摘要: 几种交叉熵之间的区别: 参考: https://www.cnblogs.com/guqiangjs/p/8202899.html 阅读全文
posted @ 2019-11-01 22:41 熊猫blue 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 一、文本预处理 API 句子分割text_to_word_sequence,将一个句子拆分成单词构成的列表。注意这个函数对中文的分割无效。 参数: text:字符串,待处理的文本 filters:需要滤除的字符的列表或连接形成的字符串,例如标点符号。默认值为 '!"#$%&()*+,-./:;<=> 阅读全文
posted @ 2019-11-01 15:58 熊猫blue 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 一、Dirichlet-Multinomial共轭 二、LDA=PLSA(Probabilistic Latent Semantic Analysis)+bayes 三、训练方法有gibbs sampling(吉布斯采样)和variation inference-EM算法(变分推断-EM算法) 四、 阅读全文
posted @ 2019-10-26 21:20 熊猫blue 阅读(345) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2019-10-26 17:48 熊猫blue 阅读(0) 评论(0) 推荐(0) 编辑
摘要: python中的re库用于正则化,相当于一个过滤器,可以过滤掉不需要的字符,得到自己想要的。 运行结果是: 其中,\u4e00-\u9fa5表示匹配中文字符,\u4e00是在编码中中文字符开始的值,\u9fa5是中文字符结束的值。 jieba.posseg.cut(text) 可以对段落进行词的划分 阅读全文
posted @ 2019-10-26 11:17 熊猫blue 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 中文停用词,可以参考这个下载来创建适合自己的停用词 阅读全文
posted @ 2019-10-24 14:31 熊猫blue 阅读(2594) 评论(0) 推荐(1) 编辑
摘要: jieba是中文文本用于分词的库,有3种模式:精确模式、全模式(所有可能的分割)、搜索引擎模式(在精确模式基础上再进行分割) 具体参考PYPI 注:1.txt 得到的分词结果,统计次数的前5个答案如下,可以看出,这个中文文本分割只是简单分割,有一定的缺点:不能根据语义进行分割,文本的意思是大枣不好吃 阅读全文
posted @ 2019-10-24 14:08 熊猫blue 阅读(2078) 评论(0) 推荐(0) 编辑