摘要: re.math()函数从源字符串的起始位置匹配一个模式语法:re.match(pattern, string, flag)第一个参数代表对应的正则表达式,第二个参数代表对应的源字符,第三个参数是可选参数,代表对应的标志位,可以放模式修正符等信息#-*- codingn:utf-8 -*-import restring = "ipythonajsoasaoso"pattern = ".python.... 阅读全文
posted @ 2018-03-27 15:07 OLIVER_QIN 阅读(1089) 评论(0) 推荐(0) 编辑
摘要: 元字符表符号说明示例.表示任意字符'abc' >>>'a.c' >>>结果为:'abc' ^表示字符开头'abc' >>>'^abc' >>>结果为:'abc'$表示字符串结尾'abc' >>>'abc$' >>>结果为:'abc'*, +, ?'*'表示匹配前一个字符重复 0 次到无限次,'+'表示匹配前一个字符 阅读全文
posted @ 2018-03-27 13:48 OLIVER_QIN 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 原子是正则表达式的最基本的组成单位,而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成。 原子分类 1.普通字符作为原子 普通字符是编写正则表达式时最常见的原子了,包括所有的大写和小写字母字符、所有数字等。例如,a——z、A——Z、0——9。 运行结果 2.一 阅读全文
posted @ 2018-03-27 13:28 OLIVER_QIN 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如:我们以【CSDN博客】的限制信息为例子在浏览器输入:https://blog.csdn.net/robots.txt获取到信息如下:从上图我们可以看出:①该网站无论用户使用哪种代理都允许爬取②但是当爬取/css,/images…等链接的时候是禁止的③我们可以看到还存... 阅读全文
posted @ 2018-03-27 10:57 OLIVER_QIN 阅读(664) 评论(0) 推荐(0) 编辑