摘要: r'^[0-9a-zA-Z_]{0,19}@[0-9a-zA-Z]{1,13}\.[com,cn,net]{1,3}$' 阅读全文
posted @ 2018-05-21 23:11 lowmanisbusy 阅读(162) 评论(0) 推荐(0) 编辑
摘要: >>> import re # 分组 1 分组2 >>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小写 >>> m = pattern.match('Hello World Wide Web') 阅读全文
posted @ 2018-05-21 22:17 lowmanisbusy 阅读(7231) 评论(0) 推荐(0) 编辑
摘要: 一.数据类型及解析方式 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 1.非结构化的数据处理 文本 阅读全文
posted @ 2018-05-21 21:06 lowmanisbusy 阅读(13712) 评论(2) 推荐(1) 编辑
摘要: 时间输入框 // input标签的type属性为time时,为时间输入框 阅读全文
posted @ 2018-05-21 20:36 lowmanisbusy 阅读(2348) 评论(0) 推荐(0) 编辑
摘要: textarea输入框 阅读全文
posted @ 2018-05-21 20:34 lowmanisbusy 阅读(643) 评论(0) 推荐(0) 编辑
摘要: 必须需要了解的: 1.requests请求的底层实现其实就是urllib3 2.Requests的文档非常完备,中文文档也相当不错.Requests能完全满足当前网络的需求,支持Python 2.6-3.5,而且能在PyPy下完美运行。 3.开源地址:https://github.com/kenne 阅读全文
posted @ 2018-05-21 00:48 lowmanisbusy 阅读(2040) 评论(2) 推荐(1) 编辑