2018 年 4月 8 日随笔档案 - 蓝勃斐重新开始

2018年4月8日

摘要： lxml库：是xml解析库，也支持html文档解析功能，实用功能：自动修正补全html代码。使用流程：①导入lxml中的etree库，②利用etree.HTML(文件名)或etree.parse(本地打开，路径)进行初始化，③etree库把HTML文档解析为Element对象。 from lxml 阅读全文

posted @ 2018-04-08 16:53 蓝勃斐重新开始阅读(253) 评论(0) 推荐(0) 编辑

爬取一本小说全文

摘要： import requests import re import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent':'Mozilla/5.0 (Wind... 阅读全文

posted @ 2018-04-08 15:40 蓝勃斐重新开始阅读(250) 评论(0) 推荐(0) 编辑

python爬虫之路——Python的re模块及其方法

摘要：介绍常用的三种方法：search（），sub（），findall（） search（）：匹配并提取第一个符合规律的内容，然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a='a1b2d3f4' infos=re.search('\d+',a) print(infos) 阅读全文

posted @ 2018-04-08 10:42 蓝勃斐重新开始阅读(200) 评论(0) 推荐(0) 编辑

python爬虫之路——正则表达式初识

摘要：正则表达式：是一个特殊的符号系列，检查字符串是否与指定模式匹配。 python中的re模块拥有全部的正则表达式功能。判断字符：类型：数目：有无：个数：单值区间离散判断一个字符：表示一个字符：①确定（1）字符 a,b,1,4 (2)转义字符 \. ②完全不确定（.）匹配任意单个字阅读全文

posted @ 2018-04-08 09:03 蓝勃斐重新开始阅读(153) 评论(0) 推荐(0) 编辑

公告