04 2019 档案
摘要:这里需要特别注意的是,把payload里面value为‘null’的值去掉(这里只是改url需要注意这一点,其他的还没测试),该url = “https://www.xxxxxxxxxxxxx”
阅读全文
摘要:DOWNLOAD_DELAY是下载延时的意思,就是下载网页(html)的间隔时间, DOWNLOAD_TIMEOUT是超时时间限制,就是如果60s还没有把网页(html)下载了,那么就会放弃这个网页,例如pycharm运行爬虫时的提示:“(failed 1 times):User timeout c
阅读全文
摘要:url= ‘https://t.360jinhuo.com/goods-3451.html?user_id=2207’ 爬取图片url时无法正常拿到,用小path-helper时获得Loading zoom..
阅读全文
摘要:url = li.xpath("./div/div[2]/a/@href | ./div/div[2]/div[2]/a/@href").extract_first()
阅读全文
摘要:\d+匹配1次或者多次数字,注意这里不要写成*,因为即便是小数,小数点之前也得有一个数字;\.?这个是匹配小数点的,可能有,也可能没有;\d*这个是匹配小数点之后的数字的,所以是0个或者多个 例如:
阅读全文