python爬虫练习2——豆瓣读书

豆瓣网站禁止了爬虫爬取,需要对其进行简单的反爬虫处理后才可进行提取。

https://book.douban.com/robots.txt

 

网址:豆瓣读书 (douban.com)

F12,找到 User-agent ,在爬虫程序中进行添加。

 

 

 

复制代码
import requests
import re

for i in range (1,5):
    url = 'https://book.douban.com/series/39838?page='+str(i)
    ua = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59'}
    
    print(''+str(i)+'页:',url)
    r =  requests.get(url ,headers = ua , timeout = 30)
    
    pat = 'title=(.*?)onclick'
    til = re.compile(pat,re.S).findall(r.text)
    print(til)
    print('---------------')
复制代码

 

 

 

看着比较乱,我们进行加工处理:

复制代码
import requests
import re

for i in range (1,5):
    url = 'https://book.douban.com/series/39838?page='+str(i)
    ua = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59'}
    
    print(''+str(i)+'页:',url)
    r =  requests.get(url ,headers = ua , timeout = 30)
    
    pat = 'title=(.*?)onclick'
    til = re.compile(pat,re.S).findall(r.text)
    #print(til)

    for item in til:
        
        print(str(item))
        print('--------------')
复制代码

 

 

 

 这样就好多了

 

posted @   徐海建  阅读(132)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示