人人小站图片采集-python爬虫练习

程序通过采集人人小站的json文件获得某个标签下的所有gif图片及对应的图片描述。主要用到urllib.request正则,错误和异常处理。 中间遇到了不少坑,正则不熟练,以及采集中遇到的编码问题。当在json中采集时遇到字符表情时候就会出问题。遇到字符表情无法写入txt中。

程序自动崩溃,停止运行。编码问题最终没有解决, 、最后用try语法遇到这种编码问题的跳过,算是能够成功采集。程序稍作修改即可实现人人小站全站采集。

import urllib.request
import re

list=[]
for url in range(4106,7000):
	list.append("http://zhan.renren.com/tag?value=gif&json=true&type=&page="+str(url))
#print(list)
for eachurl in list:
	print(eachurl)
	url2=urllib.request.urlopen(eachurl).read().decode()
#	print(url2)
	gif=re.findall("[a-zA-z]{4,5}://[^\s]*\.gif.{3}alt.{8}[^\s]*\"",url2,re.S)
#	alt=re.findall("alt[^www](.*?)u003e",url2,re.S)
	f=open("123.txt","a+")
	for eachgif in gif:
		try:
			f.write(eachgif+"\n")
		except UnicodeEncodeError:
			continue
	f.close()
#	print(alt)

 

posted on 2016-04-05 15:45  python学习笔记  阅读(274)  评论(0编辑  收藏  举报

导航