2020年寒假学习进度第十四天

   今天主要学习了python爬虫抓取网页文本,首先用到的是一个xpath的方法,当然他需要python库的支持,需要导入下图这三个库:

from lxml import etree
import re
import requests

同时记录一下踩到的坑:

:
re.sub(r'\u3000','',text[0])这个函数是替换的意思,将\u3000转化为空格,在text[0]这个文本中

二:text[0].split("河北省", 1)[0])这个函数的意思分割的意思,分割text[0]文本中河北省这三个字之前的内容,当最后的数字为1时,分割的就是后边的文本的意思

三:re.findall(r"(.+?日)", text[0])这个函数的意思时查找,查找text[0]文本中日字前边的文本,结果包含日字。

四:len(mid.split("其中", 1)) 这个函数的意思是查询是否有文本,检测mid文本中其中两个字后边是否还有文本,如果有返回值会是文本的长度(具体长度我还不会算),如果没有会返回0吧。

posted @ 2020-02-14 17:24  生活依旧  阅读(139)  评论(0编辑  收藏  举报