2020年寒假学习进度第十四天

今天主要学习了python爬虫抓取网页文本，首先用到的是一个xpath的方法，当然他需要python库的支持，需要导入下图这三个库：

from lxml import etree
import re
import requests

同时记录一下踩到的坑：

一:re.sub(r'\u3000','',text[0])这个函数是替换的意思，将\u3000转化为空格，在text[0]这个文本中

二:text[0].split("河北省", 1)[0])这个函数的意思分割的意思，分割text[0]文本中河北省这三个字之前的内容，当最后的数字为1时，分割的就是后边的文本的意思

三：re.findall(r"(.+?日)", text[0])这个函数的意思时查找，查找text[0]文本中日字前边的文本，结果包含日字。

四：len(mid.split("其中", 1)) 这个函数的意思是查询是否有文本，检测mid文本中其中两个字后边是否还有文本，如果有返回值会是文本的长度（具体长度我还不会算），如果没有会返回0吧。

，

posted @ 2020-02-14 17:24 生活依旧阅读(140) 评论(0) 编辑收藏举报

刷新页面返回顶部

2020年寒假学习进度第十四天

公告