GhostAatrox
总有一个理由,让自己开始变强
摘要: 目标网址:url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#' 最终目的:将所有信息建立数据库并存入。 代码: 总结:此项目并没有什么难度,主要是re的构造以精准抓取以及信息的提取。 最终效果图 我们还可以将数据库导出成xls文件更加方便查看 如果没有数 阅读全文
posted @ 2018-04-03 23:07 GhostAatrox 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 站点: 问题: 1.在第二个站点的时候,遇到了页面翻页问题 不像常规的构造页面(因为无规律)#尚未解决 目前思路是构造跳转函数循环跳转。 结果:完美解决 处理方法:循环调用函数,因为下一页有固定href的tag所以可以用提取href ==>调用href ==>提取需要的数据 ==>提取换页href 阅读全文
posted @ 2018-04-03 15:28 GhostAatrox 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 招聘网站: 目标:职位、地址、薪资、工作经验要求、学历要求。 房租网站: 以上项目全部用xls文档方式导出。 总结: l 首先先分析详细页里面的需要获取的信息的规律,如果存在相同多标签下的信息,直接用BeautifulSoup提取[*],如果是单标签下的 直接re构造 l 在爬取第三个job网站时发 阅读全文
posted @ 2018-04-03 15:28 GhostAatrox 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 根据今天实战任务之5个任务网站: http://bbs.fishc.com/forum-173-1.html http://xiaohua.zol.com.cn/lengxiaohua/2.html http://jobs.zhaopin.com/xiangtan/ By xpath https:/ 阅读全文
posted @ 2018-04-03 15:27 GhostAatrox 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 边界匹配 ^ 头 $ 尾 \A 串头 \Z 串尾 预定义字符集: \d [0-9] 数字 \D [^0-9] \s 匹配任何空白字符 \S匹配任何非空白字符 \w【A-Za-z0-9】 \W【^A-Za-z0-9】 下面记录一个xls存储: import xlwt book = Workbook(e 阅读全文
posted @ 2018-04-03 15:25 GhostAatrox 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 目标:爬取猎聘网深圳的所有python类职位信息并导出xls 网址:https://www.shixiseng.com/interns?k=Python&p=1 思路流程:观察网页的标签等构造 ==> 构造函数获取详细页链接 ==> 进入详细页获取详细信息 ==> 构造分页函数(根据翻页判断何种为翻 阅读全文
posted @ 2018-04-03 13:15 GhostAatrox 阅读(192) 评论(0) 推荐(0) 编辑