04 2019 档案

摘要：这里需要特别注意的是，把payload里面value为‘null’的值去掉（这里只是改url需要注意这一点，其他的还没测试）,该url = “https://www.xxxxxxxxxxxxx” 阅读全文

posted @ 2019-04-27 10:46 乔儿阅读(1326) 评论(1) 推荐(0) 编辑

摘要：DOWNLOAD_DELAY是下载延时的意思，就是下载网页（html）的间隔时间， DOWNLOAD_TIMEOUT是超时时间限制，就是如果60s还没有把网页（html）下载了，那么就会放弃这个网页，例如pycharm运行爬虫时的提示：“(failed 1 times):User timeout c 阅读全文

posted @ 2019-04-19 15:35 乔儿阅读(4767) 评论(0) 推荐(0) 编辑

待解决问题1

摘要：url= ‘https://t.360jinhuo.com/goods-3451.html?user_id=2207’ 爬取图片url时无法正常拿到，用小path-helper时获得Loading zoom.. 阅读全文

posted @ 2019-04-16 12:00 乔儿阅读(84) 评论(0) 推荐(0) 编辑

xpath | 计算两个节点集

摘要：url = li.xpath("./div/div[2]/a/@href | ./div/div[2]/div[2]/a/@href").extract_first() 阅读全文

posted @ 2019-04-15 19:11 乔儿阅读(271) 评论(0) 推荐(0) 编辑

re正则表达式匹配字符串中的数字

摘要：\d+匹配1次或者多次数字，注意这里不要写成*，因为即便是小数，小数点之前也得有一个数字；\.?这个是匹配小数点的，可能有，也可能没有；\d*这个是匹配小数点之后的数字的，所以是0个或者多个例如：阅读全文

posted @ 2019-04-12 15:17 乔儿阅读(12169) 评论(0) 推荐(0) 编辑

公告

昵称：乔儿
园龄： 6年2个月
粉丝： 7
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

乔儿

04 2019 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论