根据今天实战任务之5个任务网站:
http://bbs.fishc.com/forum-173-1.html
http://xiaohua.zol.com.cn/lengxiaohua/2.html
http://jobs.zhaopin.com/xiangtan/ By xpath
https://www.51job.com/?from=baidupz By re
#绿色为已完成、黑色为尚未完成
总结记录:
1.智联招聘尚不能用re爬取 原因:多个<li></li>分支 寻找解决方法
2.智联招聘爬取后发现 当前页面所有href成为一个列表,解决方法:用for len的方式遍历href然后利用列表特性 切片每个href 然后引入下个自定义函数。
代码:for c in cs:
b = c.xpath('li/div/span[1]/a/@href')
for i in range(len(b)):
a = b[i]
getinfos(a)
3.在实战过程中回顾open-txt用法 但只能做到单页 不能转链
4.href = \"(.+?)\" #全部href链接
总有一个理由,会让我们开始变强。