摘要: 在爬虫把数据爬取到本地之后,我之前一直用的是文本(txt)来存爬下来的内容,当我还要继续用这些内容时,直接逐行读取txt里的内容。 但是后来遇到了这种 2017 12 74832938为行的读取问题,前面2017 12想让程序识别为字符串,74832938想识别成数字,用字符串处理函数处理起来好麻烦 阅读全文
posted @ 2018-12-15 15:17 Rare2 阅读(169) 评论(0) 推荐(0)
摘要: 首先cmd进入python3安装路径下的Scripts文件夹 输入pip install jieba 即可成功安装 jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能 阅读全文
posted @ 2018-09-26 21:06 Rare2 阅读(1873) 评论(0) 推荐(0)
摘要: 要系统的学习正则表达式的内容,可以对照马士兵老师的java正则表达式课程和http://www.runoob.com/python/python-reg-expressions.html详细学习。 目前可参考哦这个:https://blog.csdn.net/eastmount/article/de 阅读全文
posted @ 2018-09-26 14:41 Rare2 阅读(139) 评论(0) 推荐(0)
摘要: 这个讲的比较清楚,有关read()、readline()和readlines()的区别 参考这里:https://blog.csdn.net/qq_26591517/article/details/78794265 最好是一行一行读入,也就是采用readline()的方式,这样在数据量大的情况下,会 阅读全文
posted @ 2018-09-26 14:05 Rare2 阅读(409) 评论(0) 推荐(0)
摘要: 文件是存储在硬盘上的,程序读文件首先就是要将文件和内存对象关联起来,打开文件,再通过一系列操作使得对象能获得文件的内容。 open()方法能打开文件并在内存中创建一个文件对象。 使用方法:open(磁盘文件名,打开方式) 但是这样写是有问题的,我们看看问题都出在哪里。 问题1:没有进行关闭文件的操作 阅读全文
posted @ 2018-09-21 13:01 Rare2 阅读(715) 评论(0) 推荐(0)
摘要: .tar.gz和.zip文件的区别 阅读全文
posted @ 2018-09-21 09:43 Rare2 阅读(6910) 评论(0) 推荐(0)