2019 年 7月随笔档案 - 乔儿

关闭requests请求的长连接

摘要：import requests,json,time requests.packages.urllib3.disable_warnings() requests.adapters.DEFAULT_RETRIES = 5 #增加重连次数 def get_price(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows... 阅读全文

posted @ 2019-07-23 15:40 乔儿阅读(4324) 评论(0) 推荐(0) 编辑

Python连接数据库

摘要：import pymysql def ceshi(): conn = pymysql.connect( host = "127.0.0.1", port = 3306, db = "crawled", user = 'root', passwd = '123456', ) cursor = ... 阅读全文

posted @ 2019-07-15 15:42 乔儿阅读(209) 评论(0) 推荐(0) 编辑

429状态码

摘要：在HTTP协议中，响应状态码 429 Too Many Requests 表示在一定的时间内用户发送了太多的请求，即超出了“频次限制”。在响应中，可以提供一个 Retry-After 首部来提示用户需要等待多长时间之后再发送新的请求。服务器不主动拒绝请求，不封ip，但是会限制请求频率，所有我们要阅读全文

posted @ 2019-07-11 14:02 乔儿阅读(6017) 评论(0) 推荐(0) 编辑

scrapy框架查看请求状态码

摘要：在中间件middlewares中写一个类，查看请求的状态码阅读全文

posted @ 2019-07-11 14:00 乔儿阅读(2874) 评论(1) 推荐(0) 编辑

requests请求发送的次数太多的情况下会报错（HTTPSConnectionPool(host='***', port=443): Max retries exceeded with url）

摘要：解决办法是 import requests,json,timerequests.packages.urllib3.disable_warnings()requests.adapters.DEFAULT_RETRIES = 5 #增加重连次数def get_price(url): headers = 阅读全文

posted @ 2019-07-10 15:52 乔儿阅读(5432) 评论(0) 推荐(0) 编辑

将中文乱码（ÎÖ¶ûÂê¾©¶«×ÔÓª¹Ù·½Æì½¢µê）转换成正确的格式（沃尔玛京东自营官方旗舰店）

摘要：在使用scrapy抓取微博的话题时，抓取到了一个中文字段（用变量a表示），无论使用何种编码方式都无法正确显示，如下所示：查看a的编码后，确认是unicode编码，具体值如下所示：直接print a结果为乱码，将a encode之后，结果仍未乱码：并且我们发现a.encode('utf-8')之阅读全文

posted @ 2019-07-10 15:49 乔儿阅读(4334) 评论(0) 推荐(0) 编辑

mysql中将varchar转int排序 cast(good_index as UNSIGNED INTEGER)

摘要：select name,good_index from crawled_goods where channel='jdzgb-beijing' and batch_id='2019070912' and cate2_name='饮料' ORDER BY cast(good_index as UNSI 阅读全文

posted @ 2019-07-09 19:56 乔儿阅读(1200) 评论(0) 推荐(0) 编辑

json处理不严谨问题，出现"json.decoder.JSONDecodeError"解决办法

摘要：因为网络问题，导致返回的数据不是json类型，而是网络出现问题的网页格式，这个值不是json.loads()期待的参数，所以出现错误使用post请求时，在某些情况下，特别是跨语言情况下，JSON格式就可能出现错误此问题说明获取的json格式不标准，可以在loads()中添加strict=Fal 阅读全文

posted @ 2019-07-09 17:30 乔儿阅读(12515) 评论(0) 推荐(0) 编辑

scrapy中将str转为能xpath的html格式

摘要：在scrapy获取资源时，有时候获取的是json格式，但是json里面存在着html的标签，这时候就可以将json转为字典，然后再将html标签拿到，然后再进行xpath，就可以获取到标签内的资源了；但是，怎么将这里的str转为能xpath的html标签呢，这里就用到了Selector 阅读全文

posted @ 2019-07-09 17:24 乔儿阅读(2402) 评论(0) 推荐(0) 编辑

format报错

摘要：TypeError: not enough arguments for format string 将字符串中的%替换为%%，达到转义的效果 a = "测试字符串中自带%%时遇到错误的问题%s"%format 这里前面的%的前面必须要加一个%用以转义，不然就会报错。阅读全文

posted @ 2019-07-05 14:50 乔儿阅读(498) 评论(0) 推荐(0) 编辑

乔儿

07 2019 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论