【python】使用爬虫爬取动漫之家漫画全部更新信息

本篇仅在于交流学习

网站名称为:

https://manhua.dmzj.com/

1.首先将相应的库导入:

1
2
import requests
from lxml import etree

2.确定漫画更新页面上限:

 

 第一页

 

第二页

 

可以确定页面转换是通过修改数字改变网页的

3.使用for循环遍历页面:

1
2
3
for page in range(1,11):
    url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1)
    print(url)

得到漫画更新全网页链接

4.截取网站信息进行分析:

 

1
2
3
4
heads = {}
    heads['User-Agent'] = '用自己的网页头部'
    html = requests.get(url=url, headers=heads).text
    list = etree.HTML(html)

5.截取信息:

分析网页内容:

 

 

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
l = list.xpath("//div[@class='boxdiv1']")
    for info in l:
        title = info.xpath('div/ul/li/a/@title')[0# 作品名
  
        doc = info.xpath('div/ul/li/text()')[1# '作者:'
  
        name = info.xpath('div/ul/li/span/text()')[0# 作者名·-
  
        type = info.xpath('div/ul/li/text()')[2# 类型
  
        link = info.xpath('div/ul/li/a/@href')[0# 作品链接
        link = 'https://manhua.dmzj.com/' + link
  
        newlink = info.xpath('div/ul/li/a/@href')[1# 最新作品链接
        newlink = 'https://manhua.dmzj.com/' + newlink
  
        buff = info.xpath('div/ul/li/text()')[5# 作品状态
  
        print(title + "   " + doc + name + "   " + type + "   " + link + "   " + buff + "   " + newlink + "   ")x

 效果:

 

 6.完整代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import requests
from lxml import etree
  
for page in range(1,11):
    url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1)
    print(url)
    heads = {}
    heads['User-Agent'] = '用自己的头部'
    html = requests.get(url=url, headers=heads).text
    list = etree.HTML(html)
    l = list.xpath("//div[@class='boxdiv1']")
    for info in l:
        title = info.xpath('div/ul/li/a/@title')[0# 作品名
  
        doc = info.xpath('div/ul/li/text()')[1# '作者:'
  
        name = info.xpath('div/ul/li/span/text()')[0# 作者名·-
  
        type = info.xpath('div/ul/li/text()')[2# 类型
  
        link = info.xpath('div/ul/li/a/@href')[0# 作品链接
        link = 'https://manhua.dmzj.com/' + link
  
        newlink = info.xpath('div/ul/li/a/@href')[1# 最新作品链接
        newlink = 'https://manhua.dmzj.com/' + newlink
  
        buff = info.xpath('div/ul/li/text()')[5# 作品状态
  
        print(title + "   " + doc + name + "   " + type + "   " + link + "   " + buff + "   " + newlink + "   ")

 

posted @   咎如杏咡  阅读(495)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
点击右上角即可分享
微信分享提示