摘要: lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码。 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本地打开,路径)进行初始化,③etree库把HTML文档解析为Element对象。 from lxml 阅读全文
posted @ 2018-04-08 16:53 蓝勃斐重新开始 阅读(253) 评论(0) 推荐(0) 编辑
摘要: import requests import re import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent':'Mozilla/5.0 (Wind... 阅读全文
posted @ 2018-04-08 15:40 蓝勃斐重新开始 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 介绍常用的三种方法:search(),sub(),findall() search():匹配并提取第一个符合规律的内容,然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a='a1b2d3f4' infos=re.search('\d+',a) print(infos) 阅读全文
posted @ 2018-04-08 10:42 蓝勃斐重新开始 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配。 python中的re模块拥有全部的正则表达式功能。 判断字符: 类型: 数目:有无: 个数:单值 区间 离散 判断一个字符: 表示一个字符:①确定 (1)字符 a,b,1,4 (2)转义字符 \. ②完全不确定 (.) 匹配任意单个字 阅读全文
posted @ 2018-04-08 09:03 蓝勃斐重新开始 阅读(153) 评论(0) 推荐(0) 编辑