上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 21 下一页
摘要: 在linux上安装 mysqlclint 的时候使用: pip install mysqlclient 但是报错: [root@localhost ~]# pip install mysqlclient DEPRECATION: Python 2.7 will reach the end of it 阅读全文
posted @ 2020-03-10 18:25 cknds 阅读(15292) 评论(0) 推荐(0) 编辑
摘要: 打开文件的时候open(r'c:\....')加r'可以防止路径中出现'\t'的话 \t会被转义 而加了'r'之后'\t'就能保留原有的样子 在字符串赋值的时候 前面加'r'可以防止字符串在时候的时候不被转义 原理是在转义字符前加'\' 例: s=r'\tt' print(s) \tt s='\tt 阅读全文
posted @ 2020-03-05 16:34 cknds 阅读(4998) 评论(0) 推荐(2) 编辑
摘要: 一 使用 Fiddler 抓包分析公众号 首先在pc段打开fiddler并清空之前的抓包记录(前提条件是:fiddler已经在pc能正常抓取浏览器的http和https请求) 然后,在pc端打开微信随便选择一个公众号,查看公众号的所有历史文章列表 然后: 然后,进入历史消息:(这一步开始有抓包记录) 阅读全文
posted @ 2020-03-05 15:25 cknds 阅读(3750) 评论(0) 推荐(0) 编辑
摘要: 在spiders文件同级建立一个commands文件夹,建立一个py文件,我自定义为crawlall.py。 from scrapy.commands import ScrapyCommand class Command(ScrapyCommand): requires_project = True 阅读全文
posted @ 2020-03-03 16:46 cknds 阅读(744) 评论(0) 推荐(0) 编辑
摘要: from scrapy import signals # 此为官方推荐的信号使用方法,用来关闭浏览器 @classmethod def from_crawler(cls, crawler, *args, **kwargs): spider = super(YourSpider, cls).from_ 阅读全文
posted @ 2020-03-03 16:00 cknds 阅读(717) 评论(0) 推荐(0) 编辑
摘要: 在用scrapy写爬虫的时候,在settings中设定了自定义的变量 KEW_WORDS 但是在爬虫模块要使用get_project_settings 方法调用此参数day_num时,结果为空值NoneType,没有将参数调用过来 原因: 在settings中引用了爬虫模块中的类,导致爬虫模块提前被 阅读全文
posted @ 2020-02-24 18:18 cknds 阅读(1148) 评论(0) 推荐(0) 编辑
摘要: 有时为了测试xpath,需要临时下载个页面,这时使用命令行进行测试是最方便的,但是很多网站页面需要认证,不能直接使用scrapy shell命令进行页面的抓取,所以需要重新对请求进行构造,设置cookies和headers。首先在当前装有scrapy的python环境中安装ipython # pyt 阅读全文
posted @ 2020-02-22 23:33 cknds 阅读(1132) 评论(0) 推荐(0) 编辑
摘要: scrapy shell 命令请求网页: scrapy shell "https://www.baidu.com" 就会得到请求的网页源代码,我们通过response.text可以获取请求之后的源代码,然后就可以通过正则匹配我们想要的内容 2.然后上面请求方法,对一些不做限制的网站请求时ok,但是就 阅读全文
posted @ 2020-02-22 23:30 cknds 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 问题描述:Python从网站中抓取网页文本保存到MySQL数据中,对应数据库字段为longtext,字符编码utf-8。部分插入成功,部分插入失败,报错如下。1366, "Incorrect string value: '\\xF0\\x9F\\x91\\x89\\xE3\\x80...' for 阅读全文
posted @ 2020-02-21 22:47 cknds 阅读(1384) 评论(0) 推荐(0) 编辑
摘要: Python判断文件是否存在的三种方法 目录 1.使用os模块 判断文件是否可做读写操作 2.使用Try语句 3. 使用pathlib模块 正文 通常在读写文件之前,需要判断文件或目录是否存在,不然某些处理方法可能会使程序出错。所以最好在做任何操作之前,先判断文件是否存在。 这里将介绍三种判断文件或 阅读全文
posted @ 2020-02-15 23:03 cknds 阅读(1402) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 21 下一页