GhostAatrox
总有一个理由,让自己开始变强

根据今天实战任务之5个任务网站:

http://bbs.fishc.com/forum-173-1.html

http://xiaohua.zol.com.cn/lengxiaohua/2.html

http://jobs.zhaopin.com/xiangtan/  By  xpath

https://www.51job.com/?from=baidupz    By  re

https://www.zbj.com/

#绿色为已完成、黑色为尚未完成

 

 

总结记录:

1.智联招聘尚不能用re爬取  原因:多个<li></li>分支 寻找解决方法

2.智联招聘爬取后发现 当前页面所有href成为一个列表,解决方法:用for  len的方式遍历href然后利用列表特性 切片每个href 然后引入下个自定义函数。

代码:for c in cs:

    b = c.xpath('li/div/span[1]/a/@href')

    for i in range(len(b)):

        a = b[i]

        getinfos(a)

3.在实战过程中回顾open-txt用法 但只能做到单页 不能转链

4.href = \"(.+?)\"   #全部href链接

 

posted on 2018-04-03 15:27  GhostAatrox  阅读(158)  评论(0编辑  收藏  举报