人人小站图片采集-python爬虫练习
程序通过采集人人小站的json文件获得某个标签下的所有gif图片及对应的图片描述。主要用到urllib.request正则,错误和异常处理。 中间遇到了不少坑,正则不熟练,以及采集中遇到的编码问题。当在json中采集时遇到字符表情时候就会出问题。遇到字符表情无法写入txt中。
程序自动崩溃,停止运行。编码问题最终没有解决, 、最后用try语法遇到这种编码问题的跳过,算是能够成功采集。程序稍作修改即可实现人人小站全站采集。
import urllib.request import re list=[] for url in range(4106,7000): list.append("http://zhan.renren.com/tag?value=gif&json=true&type=&page="+str(url)) #print(list) for eachurl in list: print(eachurl) url2=urllib.request.urlopen(eachurl).read().decode() # print(url2) gif=re.findall("[a-zA-z]{4,5}://[^\s]*\.gif.{3}alt.{8}[^\s]*\"",url2,re.S) # alt=re.findall("alt[^www](.*?)u003e",url2,re.S) f=open("123.txt","a+") for eachgif in gif: try: f.write(eachgif+"\n") except UnicodeEncodeError: continue f.close() # print(alt)
posted on 2016-04-05 15:45 python学习笔记 阅读(274) 评论(0) 编辑 收藏 举报