07 2019 档案
摘要:import requests,json,time requests.packages.urllib3.disable_warnings() requests.adapters.DEFAULT_RETRIES = 5 #增加重连次数 def get_price(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows...
阅读全文
摘要:import pymysql def ceshi(): conn = pymysql.connect( host = "127.0.0.1", port = 3306, db = "crawled", user = 'root', passwd = '123456', ) cursor = ...
阅读全文
摘要:在HTTP协议中,响应状态码 429 Too Many Requests 表示在一定的时间内用户发送了太多的请求,即超出了“频次限制”。 在响应中,可以提供一个 Retry-After 首部来提示用户需要等待多长时间之后再发送新的请求。 服务器不主动拒绝请求,不封ip,但是会限制请求频率,所有我们要
阅读全文
摘要:在中间件middlewares中写一个类,查看请求的状态码
阅读全文
摘要:解决办法是 import requests,json,timerequests.packages.urllib3.disable_warnings()requests.adapters.DEFAULT_RETRIES = 5 #增加重连次数def get_price(url): headers =
阅读全文
摘要:在使用scrapy抓取微博的话题时,抓取到了一个中文字段(用变量a表示),无论使用何种编码方式都无法正确显示,如下所示: 查看a的编码后,确认是unicode编码,具体值如下所示: 直接print a结果为乱码,将a encode之后,结果仍未乱码: 并且我们发现a.encode('utf-8')之
阅读全文
摘要:select name,good_index from crawled_goods where channel='jdzgb-beijing' and batch_id='2019070912' and cate2_name='饮料' ORDER BY cast(good_index as UNSI
阅读全文
摘要:因为网络问题,导致返回的数据不是json类型,而是网络出现问题的网页格式,这个值不是json.loads()期待的参数,所以出现错误 使用post请求时, 在某些情况下,特别是跨语言情况下,JSON格式就可能出现错误 此问题说明获取的json格式不标准,可以在loads()中添加strict=Fal
阅读全文
摘要:在scrapy获取资源时,有时候获取的是json格式,但是json里面存在着html的标签,这时候就可以将json转为字典,然后再将html标签拿到,然后再进行xpath,就可以获取到标签内的资源了; 但是,怎么将这里的str转为能xpath的html标签呢,这里就用到了Selector
阅读全文
摘要:TypeError: not enough arguments for format string 将字符串中的%替换为%%,达到转义的效果 a = "测试字符串中自带%%时遇到错误的问题%s"%format 这里前面的%的前面必须要加一个%用以转义,不然就会报错。
阅读全文