scrapy抓取淘宝女郎
scrapy抓取淘宝女郎
准备工作
- 我们的目的是抓取册以及相关的信息,所以我们需要随便打开一个淘女郎的相册页面,然后随便进入一个相册即可,很显然这里的相册是异步加载的,因此我们需要抓包,这里我抓到了含有相册的url以及相关信息的
json
数据,如下图:
- 然后我们查看它的
url
为https://mm.taobao.com/album/json/get_album_photo_list.htmuser_id=687471686&album_id=10000702574&top_pic_id=0&cover=%2F%2Fimg.alicdn.com%2Fimgextra%2Fi2%2F687471686%2FTB1TlwDLFXXXXbxaXXXXXXXXXXX_!!2tstar.png&page=1&_ksTS=1494097545509_154&callback=jsonp15
- 通过我尝试之后这条url可以简化为:
- 其中
user_id
是每一个女郎对的id
,ablum_id
时每一个相册的id
,这里一个女郎有多个相册,因此这个id
是不同的,但是page
就是要翻页的作用了,可以看到我去掉了callback=json155
这一项,因为如果加上这一项,返回的数据就不是json
类型的数据,其中page
是在抓包的时候点击翻页才会在下面出现的,可以看到同一个相册返回的除了page
不同之外,其他的都是相同的,因此这里通过page
来实现翻页的数据
- 上面分析了每一个相册的
url
数据的由来,可以看到我们下面需要找到user_id
,ablum_id
这两个数据.
user_id
的获取:我们打开首页,然后打开chrome
的调试工具,可以看到每一个 女郎的url
中都包含user_id
这一项,因此我们只需要通过这个实现翻页然后获取每一个女郎的url
,之后用正则将user_id
匹配出来即可,代码如下
ps=response.xpath('//p[@class="top"]')
for p in ps:
item=JrtItem()
href=p.xpath('a/@href').extract() #这个得到的是一个数组url
if href:
item['user_id']=self.pattern_user_id.findall(href[0])[0] #用则正匹配出user_id,其中的正则为 pattern_user_id=re.compile(r'user_id=(\d+)')
ablum_id
的获取:想要获取ablum_id
当然要在相册的页面查找,于是我们在相册页面抓包获得了如下图的页面
- 通过上图我们清晰的知道每一个相册的里面包含多少相册,但最令人开心的是在这个页面中不是动态加载,因此我们可以查看它的源码,当我们查看源码的时候,我们可以看到和
user_id
一样,这里的ablum_id
包含在了href
中,因此我们只需要找到每一张相册的url
,然后用正则匹配处来即可,其中这个页面的url
简化为:- https://mm.taobao.com/self/album/open_album_list.htm?_charset=utf-8&user_id ={0}&page=
- 所以我们可以通过上面得到的
user_id
构成请求即可,代码如下:
## 解析得到ablum_id,根据ablum_id解析请求出每一个相册的json数据
def parse_ablum_id(self,response):
if response.status==200:
print response.url
item = response.meta['item']
soup = BeautifulSoup(response.text, 'lxml')
divs = soup.find_all('div', class_='mm-photo-cell-middle')
for div in divs:
href = div.find('h4').find('a').get('href')
items = self.pattern_ablum_id.findall(href) #这里就得到了ablum_id
- 上面已经获得了
user_id
和ablum_id
,那么现在就可以请求每一个相册的json
数据了,这个就不用多说了,详情请看源代码
MongoDB存储
安装方式
Windows
下安装请看我的MogoDB干货篇
ubantu
直接用sudo apt-get install
安装即可
- 安装对应python的包:
pip install pymongo
- 安装完成以后就可以连接了,下面贴出我的连接代码
from pymongo import MongoClient
class MongoDBPipelines(object):
collection_name = 'taobao'
def open_spider(self,spider):
self.client = MongoClient('localhost', 27017) #连接,这里的27017是默认的额端口号
self.db = self.client['python'] #python是自己的数据库,当然这里不用提前建好也可以
def close_spider(self, spider):
self.client.close()
def process_item(self,item,spider):
self.db[self.collection_name].update({'picId':item['picId']}, {'$set': dict(item)}, True)
return item
现在这就算好了,当然这里还有很多东西需要优化的,像代理池。。。最后本人想在暑期找一个地方实习,但是一直没有好的地方,希望有实习的地方推荐的可以联系我,在这里先谢谢了
推荐
最后推荐博主的一些源码
- scrapy爬取妹子网站实现图片的存储,这个只是一个演示怎样存储图片的实例,因此不想过多的投入时间去爬,因此写的不是很详细
如果觉得作者写的好,有所收获的话,点个关注,推荐一波,文章首发于公众号!!!