2021 年 11月随笔档案 - 一颗蛋50斤 - 博客园

11 2021 档案

用python爬取新笔趣阁的所有小说，使用xpath提取

摘要：运行后会在运行的目录下面建立一个建立一个笔趣阁的目录，小说会一每个目录分类，每部小说的章节都会在对应的小说目录里面 import time import requests from lxml import etree import os novel_name = "笔趣阁" novel_length 阅读全文

posted @ 2021-11-19 19:23 一颗蛋50斤阅读(1277) 评论(2) 推荐(0) 编辑

初识 scrapy 框架

摘要：在使用 scrapy 之前，我们先要用 pip 安装这个模块 pip install scrapy 安装好之后我们就可以建立爬虫项目了，在终端建立项目爬虫 scrapy startproject myspider 其中 myspider 是爬虫项目的名称 cd 进入这个项目 cd myspider 阅读全文

posted @ 2021-11-12 22:59 一颗蛋50斤阅读(52) 评论(0) 推荐(0) 编辑

初步实现 python 爬取小说，实现不规则页面的翻页爬取

摘要：在写爬虫的时候，我们会遇到有的网页链接是不规则的。今天我写爬虫练习的时候，就遇到了这个情况。后来我发现用 lxml 可以很好的去出链接，然后我灵光一闪，就去试了试，果然。把每次找到的链接传给一个成员变量保存，这样就可以直接在下次爬取的时候调用这个变量去访问下一个要爬取的页面了 # -*- codin 阅读全文

posted @ 2021-11-01 21:58 一颗蛋50斤阅读(1262) 评论(4) 推荐(0) 编辑

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称：一颗蛋50斤
园龄： 4年4个月
粉丝： 6
关注： 5

随笔分类

Spring Study(1)

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:控制反转 IOC 理论推导
@一叶兰舟飘所言极是，我的初衷是想借用这样的事例来说说我对于 Spring ioc 这样思想的转换。...
--一颗蛋50斤
2. Re:控制反转 IOC 理论推导
使用接口的目的, 就是为了把实现类隔离开来, 只给前面提供接口约束,按着接口约束来调用, 返回想要的结果,这样吧最最最底层的impl类抛到最前端声明,很明显和初衷冲突了
--一叶兰舟飘
3. Re:用python爬取新笔趣阁的所有小说，使用xpath提取
@王凯Kai 我对于爬虫也不是很了解，主要是为了比赛而学习，学爬虫也就学了五天，然后学了两天的scrapy，我主要是按照比赛的要求去写的，不过现在今年的赛事章程出来了，我负责的模块改成实时计算了，就两...
--一颗蛋50斤
4. Re:用python爬取新笔趣阁的所有小说，使用xpath提取
我看了一下，写的不错，你爬的这个主页上是一次性加载了所有小说链接，我今天爬了，因为这个页面有JS-AJAX加载,所以还有点小难度,但是也挺有代表性,本来想有SELENIUM 模拟下拉，后来看了一篇文...
--王凯Kai
5. Re:初步实现 python 爬取小说，实现不规则页面的翻页爬取
@王凯Kai 这里面可以在 settings 里面设置 IP 代理池和 ua 一次性爬起这个网页的所有小说网也写了，scrapy 写了，但是我发了一个是单纯是一个 py 文件的爬虫，上一个发布的爬去...
--一颗蛋50斤