摘要: 最近学习无趣,想找点乐子,知乎上刷了一波,感觉爬虫挺好玩,于是就来一波呗 感觉这个教程写的还是不错的,链接给上:Python爬虫学习系列教程 记下要点: 1.测试网页脚本 这个脚本可用来带cookie测试网页,可自定义header,post数据 2.网页解析 1.正则表达式 掌握简单的正则表达式用匹 阅读全文
posted @ 2016-09-05 20:47 Rainlin 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 对于Python的字符编码问题也懵了很久,最近做爬虫多次遇到网页转码的问题,干脆彻底解决掉!Just Do it! 1.两种类型str与unicode str和unicode都是basestring的子类。严格意义上说,str其实是字节串,它是unicode经过编码后的字节组成的序列。对 UTF-8 阅读全文
posted @ 2016-09-05 14:27 Rainlin 阅读(216) 评论(0) 推荐(0) 编辑