2018 年 4月 3 日随笔档案 - GhostAatrox

2018年4月3日

摘要：目标网址:url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#' 最终目的：将所有信息建立数据库并存入。代码：总结：此项目并没有什么难度，主要是re的构造以精准抓取以及信息的提取。最终效果图我们还可以将数据库导出成xls文件更加方便查看如果没有数阅读全文

posted @ 2018-04-03 23:07 GhostAatrox 阅读(157) 评论(0) 推荐(0) 编辑

笔记3.31 5个项目并入库

摘要：站点：问题： 1.在第二个站点的时候，遇到了页面翻页问题不像常规的构造页面（因为无规律）#尚未解决目前思路是构造跳转函数循环跳转。结果：完美解决处理方法：循环调用函数，因为下一页有固定href的tag所以可以用提取href ==>调用href ==>提取需要的数据 ==>提取换页href 阅读全文

posted @ 2018-04-03 15:28 GhostAatrox 阅读(100) 评论(0) 推荐(0) 编辑

笔记!3月30日

摘要：招聘网站：目标：职位、地址、薪资、工作经验要求、学历要求。房租网站：以上项目全部用xls文档方式导出。总结： l 首先先分析详细页里面的需要获取的信息的规律，如果存在相同多标签下的信息，直接用BeautifulSoup提取[*],如果是单标签下的直接re构造 l 在爬取第三个job网站时发阅读全文

posted @ 2018-04-03 15:28 GhostAatrox 阅读(148) 评论(0) 推荐(0) 编辑

笔记2018年3月29日

摘要：根据今天实战任务之5个任务网站： http://bbs.fishc.com/forum-173-1.html http://xiaohua.zol.com.cn/lengxiaohua/2.html http://jobs.zhaopin.com/xiangtan/ By xpath https:/ 阅读全文

posted @ 2018-04-03 15:27 GhostAatrox 阅读(158) 评论(0) 推荐(0) 编辑

2018年3月28日笔记

摘要：边界匹配 ^ 头 $ 尾 \A 串头 \Z 串尾预定义字符集： \d [0-9] 数字 \D [^0-9] \s 匹配任何空白字符 \S匹配任何非空白字符 \w【A-Za-z0-9】 \W【^A-Za-z0-9】下面记录一个xls存储： import xlwt book = Workbook(e 阅读全文

posted @ 2018-04-03 15:25 GhostAatrox 阅读(107) 评论(0) 推荐(0) 编辑

实战小项目之猎聘网 #xls形式

摘要：目标：爬取猎聘网深圳的所有python类职位信息并导出xls 网址：https://www.shixiseng.com/interns?k=Python&p=1 思路流程:观察网页的标签等构造 ==> 构造函数获取详细页链接 ==> 进入详细页获取详细信息 ==> 构造分页函数（根据翻页判断何种为翻阅读全文

posted @ 2018-04-03 13:15 GhostAatrox 阅读(192) 评论(0) 推荐(0) 编辑