会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
苜蓿椒盐
博客园
首页
新随笔
联系
管理
订阅
随笔- 21 文章- 0 评论- 0 阅读-
12419
04 2019 档案
LinkExtractor 深度爬取url中含有中文关键字
摘要:scrapy 默认的是utf-8的格式进行编码,在利用链接提取器LinkExtractor进行深度爬取的时候, 返回的Response中的url链接中可能会含有中文关键字,如果不进行处理的情况下scrapy会自动的将中关键字以utf-8的格式进行编码后再去请求这个url,但是网站的解析格式可能不是u
阅读全文
posted @
2019-04-03 17:54
苜蓿椒盐
阅读(543)
评论(0)
推荐(0)
编辑
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
公告
昵称:
苜蓿椒盐
园龄:
7年2个月
粉丝:
0
关注:
0
+加关注
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
更多链接
随笔分类
docker(1)
jvm(1)
mysql(2)
redis(1)
seata(2)
spider(4)
zookeeper(4)
随笔档案
2023年11月(1)
2023年8月(1)
2023年3月(1)
2022年12月(3)
2022年9月(1)
2022年8月(1)
2022年7月(4)
2022年4月(4)
2020年9月(1)
2019年10月(1)
2019年6月(1)
2019年5月(1)
2019年4月(1)
阅读排行榜
1. scrapy 主动停止爬虫(5351)
2. HttpServletRequestWrapper,Filter 和 RequestBodyAdviceAdapter以及请求进入到servlet容器中执行流程(1560)
3. scrapy下载的文件重新命名(1375)
4. springboot 自动装配(998)
5. LinkExtractor 深度爬取url中含有中文关键字(543)
点击右上角即可分享