摘要: # -*- coding:utf-8 -*- # 生成000开头的三位数:%03d for i in range(100): print('%03d'%i) 生成数字:000,001,002 ....... 099 阅读全文
posted @ 2020-05-27 14:05 言守中 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 最近写爬虫,突然发现自己的动态的User-Agent用不了了,所以想可能是新版本出来了,旧的版本用不了了,坏掉了。 一时间想不起用什么命令了,网上查了一下,发现很简单,所以记录一下方便以后忘了的时候快速查找,根据版本不同稍微有点区别 windows : pip install -u 模块名称 也有可 阅读全文
posted @ 2018-12-18 16:26 言守中 阅读(5869) 评论(0) 推荐(0) 编辑
摘要: 在scrapy的反爬中,常用的几个配置,简单总结了下: User-Agent中间件: 代理IP中间件: cookies设置、多个爬虫共用一个settings时,各自spider中的设置: 都是很简单实用的配置 验证码:打码平台比较简单、省事、效率 注:每天进步一点点,或记录或不记录,都是自己的。记录 阅读全文
posted @ 2018-12-18 15:58 言守中 阅读(1482) 评论(0) 推荐(0) 编辑
摘要: re 模块的使用: 1.使用compile()函数编译一个parttern对象, 例如:parttern=re.compile(r'\d+') 2.通过pattern对象提供的一系列属相和方法,对文本进行匹配查找,获得结果,即一个Match对象 match 方法:从起始位置开始查找,一次匹配,匹配失 阅读全文
posted @ 2018-12-04 17:25 言守中 阅读(5532) 评论(0) 推荐(1) 编辑
摘要: 概念:又称规则表达式,常用来检索、替换符合某个规则的文本。 理解:特殊字符 >规则 >过滤字符串 目的:1.匹配给定的字符串,2.从字符串中过滤出我们需要的特定部分 python 内置 re模块来使用正则表达式 注意点:正则表达式会对特殊字符进行转义,如果要保持原模样,只需加个r前缀。例如:r'\t 阅读全文
posted @ 2018-12-04 15:09 言守中 阅读(639) 评论(0) 推荐(0) 编辑
摘要: 用python写个爬虫,配置个VScode环境,发现输出都是乱码,翻阅网站后发现一个简单有效的方法,在此谢过网络上的大牛们的无私分享,我也在此记录一下,以备后用: 文件 >首选项 >设置 >用户设置 >功能 >终端 >在settings.json中编辑 加入这句话:"code-runner.runI 阅读全文
posted @ 2018-10-11 18:42 言守中 阅读(18943) 评论(0) 推荐(0) 编辑
摘要: 这个小程序可以爬取该网站的医生专家的信息,分不同的专科保存到同一个Excel中。 阅读全文
posted @ 2018-09-17 13:54 言守中 阅读(18745) 评论(0) 推荐(0) 编辑
摘要: 在scrapy下载中间件中设置自动切换指定类型User-Agent代理 阅读全文
posted @ 2017-11-13 16:34 言守中 阅读(816) 评论(0) 推荐(0) 编辑
摘要: 直接命令pip install scrapy安装,提示失败 Failed building wheel for Twisted... Microsoft Visual C++ 14.0 is required...等等 网上搜索一大摞windows下安装scrapy的资料,实践后终于大功告成,现分享 阅读全文
posted @ 2017-11-09 22:52 言守中 阅读(3363) 评论(0) 推荐(0) 编辑
摘要: 1.下载windows版本,64位,3.0版本就可以 官网下载地址:http://redis.io/download github下载地址:https://github.com/MSOpenTech/redis/tags 2.创建路径C:\Redis\redis-3.0,存放redis文件 3.在R 阅读全文
posted @ 2017-11-09 22:20 言守中 阅读(322) 评论(0) 推荐(0) 编辑