笔记2018年3月29日

根据今天实战任务之5个任务网站：

http://jobs.zhaopin.com/xiangtan/ By xpath

https://www.51job.com/?from=baidupz By re

#绿色为已完成、黑色为尚未完成

总结记录：

1.智联招聘尚不能用re爬取原因：多个<li></li>分支寻找解决方法

2.智联招聘爬取后发现当前页面所有href成为一个列表，解决方法：用for len的方式遍历href然后利用列表特性切片每个href 然后引入下个自定义函数。

代码：for c in cs:

b = c.xpath('li/div/span[1]/a/@href')

for i in range(len(b)):

a = b[i]

getinfos(a)

3.在实战过程中回顾open-txt用法但只能做到单页不能转链

4.href = \"(.+?)\" #全部href链接

posted on 2018-04-03 15:27 GhostAatrox 阅读(163) 评论(0) 收藏举报