摘要: python3默认是utf8的,爬取gbk网页的时候会出现乱码 解决办法 text不转换会出现错误,python3字符集不支持转码 第二种方法 test.content.decode("gbk") decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb231 阅读全文
posted @ 2019-08-31 17:49 寻真 阅读(2274) 评论(0) 推荐(0) 编辑
摘要: 最近在学习用pyppeteer来爬东西,安装后第一次运行后会下载chromium,这个被墙了的,基本卡死,可以自己下载对应的压缩包,然后 await launch( executablePath='')指定路径,一定要对应的chromium不然会出现很多未知错误。。。 查看版本号 pyppeteer 阅读全文
posted @ 2019-08-25 08:40 寻真 阅读(298) 评论(0) 推荐(0) 编辑
摘要: Python 截取字符串使用 变量[头下标:尾下标],就可以截取相应的字符串,其中下标是从0开始算起,可以是正数或负数,下标可以为空表示取到头或尾。 Python 替换字符串使用 变量.replace("被替换的内容","替换后的内容"[,次数]),替换次数可以为空,即表示替换所有。要注意的是使用r 阅读全文
posted @ 2019-05-27 19:52 寻真 阅读(2138) 评论(0) 推荐(0) 编辑
摘要: python 文件读写操作 mode:决定了打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。这个参数是非强制的,默认文件访问模式为只读(r)。 a+打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。 w 阅读全文
posted @ 2019-05-26 23:57 寻真 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 首先找到登录的post请求地址,审查元素里找,或者直接抓包就好 阅读全文
posted @ 2019-05-11 20:51 寻真 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 今天用python采集文章的时候发现有些中文会出现解码出错,UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0xb0 in position 18020: illegal multibyte sequence 百度了发现是繁体字之类的gb23 阅读全文
posted @ 2019-04-21 13:48 寻真 阅读(4120) 评论(0) 推荐(0) 编辑
摘要: 今天看蜘蛛发现百度访问了10来次一个链接,一直301 点开一看是个重定向的死循环 织梦cms 首页重定向跟nginx的404的重定向搞来死循环了 直接 把首页那 就直接重定向到首页了 阅读全文
posted @ 2019-03-13 20:36 寻真 阅读(612) 评论(0) 推荐(0) 编辑