【python】使用爬虫爬取动漫之家漫画全部更新信息
本篇仅在于交流学习
网站名称为:
https://manhua.dmzj.com/
1.首先将相应的库导入:
1 2 | import requests from lxml import etree |
2.确定漫画更新页面上限:
第一页
第二页
可以确定页面转换是通过修改数字改变网页的
3.使用for循环遍历页面:
1 2 3 | for page in range ( 1 , 11 ): url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1 ) print (url) |
得到漫画更新全网页链接
4.截取网站信息进行分析:
1 2 3 4 | heads = {} heads[ 'User-Agent' ] = '用自己的网页头部' html = requests.get(url = url, headers = heads).text list = etree.HTML(html) |
5.截取信息:
分析网页内容:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | l = list .xpath( "//div[@class='boxdiv1']" ) for info in l: title = info.xpath( 'div/ul/li/a/@title' )[ 0 ] # 作品名 doc = info.xpath( 'div/ul/li/text()' )[ 1 ] # '作者:' name = info.xpath( 'div/ul/li/span/text()' )[ 0 ] # 作者名·- type = info.xpath( 'div/ul/li/text()' )[ 2 ] # 类型 link = info.xpath( 'div/ul/li/a/@href' )[ 0 ] # 作品链接 link = 'https://manhua.dmzj.com/' + link newlink = info.xpath( 'div/ul/li/a/@href' )[ 1 ] # 最新作品链接 newlink = 'https://manhua.dmzj.com/' + newlink buff = info.xpath( 'div/ul/li/text()' )[ 5 ] # 作品状态 print (title + " " + doc + name + " " + type + " " + link + " " + buff + " " + newlink + " " )x |
效果:
6.完整代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | import requests from lxml import etree for page in range ( 1 , 11 ): url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1 ) print (url) heads = {} heads[ 'User-Agent' ] = '用自己的头部' html = requests.get(url = url, headers = heads).text list = etree.HTML(html) l = list .xpath( "//div[@class='boxdiv1']" ) for info in l: title = info.xpath( 'div/ul/li/a/@title' )[ 0 ] # 作品名 doc = info.xpath( 'div/ul/li/text()' )[ 1 ] # '作者:' name = info.xpath( 'div/ul/li/span/text()' )[ 0 ] # 作者名·- type = info.xpath( 'div/ul/li/text()' )[ 2 ] # 类型 link = info.xpath( 'div/ul/li/a/@href' )[ 0 ] # 作品链接 link = 'https://manhua.dmzj.com/' + link newlink = info.xpath( 'div/ul/li/a/@href' )[ 1 ] # 最新作品链接 newlink = 'https://manhua.dmzj.com/' + newlink buff = info.xpath( 'div/ul/li/text()' )[ 5 ] # 作品状态 print (title + " " + doc + name + " " + type + " " + link + " " + buff + " " + newlink + " " ) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构