摘要: # 删除爬取字符串中的特殊字符 def SubPunctuation(str): s = re.sub(u"[+——!,。?、~@#¥%……&*()::¶]+", u"",str) return s 阅读全文
posted @ 2020-09-02 16:04 短戈行 阅读(535) 评论(0) 推荐(0) 编辑
摘要: \xa0表示不间断空白符,爬虫中遇到它的概率不可谓不小,而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。单从对\xa0、\t、\u3000等含空白字符的处理来说,有以下几种方法可行: 使用re.sub 使用正则表达式可以轻松匹配所有空白字符,它对于Unicode字符也 阅读全文
posted @ 2020-09-02 15:45 短戈行 阅读(1566) 评论(0) 推荐(0) 编辑
摘要: #文件基础操作 f=open("test.txt","w") f.write("hello world,i am here!") f.close() #文件读 read方法,读取指定的字符,开始时定位在文件头部,每执行一次向后移动指定字符数 f=open("test.txt","r") conten 阅读全文
posted @ 2020-09-02 14:57 短戈行 阅读(394) 评论(0) 推荐(0) 编辑