摘要:
写python爬虫是遇到编码错误 报错为: UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 经过多方查找发现 \xa0是html网页源码中的空格 解决方法 替换掉字符 :replace(u'\xa0', u' ') 下面是一 阅读全文
摘要:
pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py 阅读全文
摘要:
实现思路就是在每次循环中对矩阵进行四舍五入处理 实现代码如下 阅读全文
摘要:
相对于顺序高斯只是每次循环的时候增加了一个选择列主元的过程。 选择列主元也就是找到余下的列中最大的一行,并以此行为主元 代码如下: 阅读全文
摘要:
运行结果如下 阅读全文
摘要:
解决方法: 加上下面这一行代码进行字体设置 阅读全文
摘要:
whoosh的官方介绍:http://whoosh.readthedocs.io/en/latest/quickstart.html 因为做的是中文的全文检索需要导入jieba工具包以及whoosh工具包 直接上代码吧 注: 阅读全文
摘要:
本人初学python代码不够规范 望见谅 本段代码可以完成对文本信息的分词(标注词性)、去停用词、以及存储到本地TXT文件中 附部分运行后的存储结果: 注:jieba分词的词性表如下: 另附词性标注表如下:1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名词 nr 人名 nr1 阅读全文
摘要:
def word_frequency(): word_dict = {} with open('E:\\PythonFile\\tingyongci.txt') as ti: ti_list = list(ti.read()) # 获取停用词表(综合哈工大停用词词表) with open('E:\\PythonFile\\jd\\phone\\3... 阅读全文