寻真 - 博客园

2019年8月31日

摘要： python3默认是utf8的，爬取gbk网页的时候会出现乱码解决办法 text不转换会出现错误，python3字符集不支持转码第二种方法 test.content.decode("gbk") decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb231 阅读全文

posted @ 2019-08-31 17:49 寻真阅读(2321) 评论(0) 推荐(0)

2019年8月25日

pyppeteer学习1

摘要：最近在学习用pyppeteer来爬东西，安装后第一次运行后会下载chromium，这个被墙了的，基本卡死，可以自己下载对应的压缩包，然后 await launch( executablePath=''）指定路径，一定要对应的chromium不然会出现很多未知错误。。。查看版本号 pyppeteer 阅读全文

posted @ 2019-08-25 08:40 寻真阅读(315) 评论(0) 推荐(0)

2019年5月27日

Python 字符串截取分割查找等

摘要： Python 截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。 Python 替换字符串使用变量.replace("被替换的内容"，"替换后的内容"[，次数])，替换次数可以为空，即表示替换所有。要注意的是使用r 阅读全文

posted @ 2019-05-27 19:52 寻真阅读(2165) 评论(0) 推荐(0)

2019年5月26日

python文件操作

摘要： python 文件读写操作 mode：决定了打开文件的模式：只读，写入，追加等。所有可取值见如下的完全列表。这个参数是非强制的，默认文件访问模式为只读(r)。 a+打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。 w 阅读全文

posted @ 2019-05-26 23:57 寻真阅读(144) 评论(0) 推荐(0)

2019年5月11日

python 模拟登录

摘要：首先找到登录的post请求地址，审查元素里找，或者直接抓包就好阅读全文

posted @ 2019-05-11 20:51 寻真阅读(218) 评论(0) 推荐(0)

2019年4月21日

Python decode报错UnicodeDecodeError: ‘gb2312’ codec can’t decode byte

摘要：今天用python采集文章的时候发现有些中文会出现解码出错，UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0xb0 in position 18020: illegal multibyte sequence 百度了发现是繁体字之类的gb23 阅读全文

posted @ 2019-04-21 13:48 寻真阅读(4244) 评论(0) 推荐(0)

2019年3月13日

织梦CMS首页301 重定向死循环

摘要：今天看蜘蛛发现百度访问了10来次一个链接，一直301 点开一看是个重定向的死循环织梦cms 首页重定向跟nginx的404的重定向搞来死循环了直接把首页那就直接重定向到首页了阅读全文

posted @ 2019-03-13 20:36 寻真阅读(630) 评论(0) 推荐(0)

寻真

公告