python爬虫个人小总结

这几天爬了豆瓣小组照片和小组成员信息,对一些小技术做下小结。源码在我的Github/mashaz上。

1.断点续爬

我的思路是把链接的list实时保存到文本文件里,每次打开后检测一次

2.Cookies

def Login():  
    f = open('cookies.txt','r')
    cookies = {}
    for line in f.read().split(','):
        name,value = line.strip().split('=',1)
        cookies[name] = value
    return cookies

3.CSV

第一次接触csv格式

cfile = file('info.csv','ab+')
            writer = csv.writer(cfile)
            writer.writerow(info)
            cfile.close()

 

刚逛v站看说豆瓣的防爬频率是白天40/min,晚上100/min,怪不得昨晚用的好好的,白天爬了一会儿就出验证码了。

posted @ 2017-03-04 15:57  mashaz  阅读(197)  评论(0编辑  收藏  举报