GhostAatrox
总有一个理由,让自己开始变强
摘要: 主程序: items: middlewares: pipelines: settings(加入): 阅读全文
posted @ 2018-04-18 13:44 GhostAatrox 阅读(138) 评论(0) 推荐(0) 编辑
摘要: import re,requests,xlwt from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', } end_list=... 阅读全文
posted @ 2018-04-18 13:40 GhostAatrox 阅读(108) 评论(0) 推荐(0) 编辑
摘要: import pytesseract from PIL import Image #设置tesseract安装路径 pytesseract.tesseract_cmd=r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe' image = Image.open(r"C:\Users\Administrator\Desktop\3.jpg") p... 阅读全文
posted @ 2018-04-11 22:43 GhostAatrox 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 遇到的问题:网站设置了简单的反爬虫规则:数字防爬,如:&#xf5e2这样的。 解决方法:直接获取0-9的编码加入字典以此替换。 代码如下: 效果图: 阅读全文
posted @ 2018-04-10 14:51 GhostAatrox 阅读(750) 评论(0) 推荐(0) 编辑
摘要: 目标网址:url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#' 最终目的:将所有信息建立数据库并存入。 代码: 总结:此项目并没有什么难度,主要是re的构造以精准抓取以及信息的提取。 最终效果图 我们还可以将数据库导出成xls文件更加方便查看 如果没有数 阅读全文
posted @ 2018-04-03 23:07 GhostAatrox 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 站点: 问题: 1.在第二个站点的时候,遇到了页面翻页问题 不像常规的构造页面(因为无规律)#尚未解决 目前思路是构造跳转函数循环跳转。 结果:完美解决 处理方法:循环调用函数,因为下一页有固定href的tag所以可以用提取href ==>调用href ==>提取需要的数据 ==>提取换页href 阅读全文
posted @ 2018-04-03 15:28 GhostAatrox 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 招聘网站: 目标:职位、地址、薪资、工作经验要求、学历要求。 房租网站: 以上项目全部用xls文档方式导出。 总结: l 首先先分析详细页里面的需要获取的信息的规律,如果存在相同多标签下的信息,直接用BeautifulSoup提取[*],如果是单标签下的 直接re构造 l 在爬取第三个job网站时发 阅读全文
posted @ 2018-04-03 15:28 GhostAatrox 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 根据今天实战任务之5个任务网站: http://bbs.fishc.com/forum-173-1.html http://xiaohua.zol.com.cn/lengxiaohua/2.html http://jobs.zhaopin.com/xiangtan/ By xpath https:/ 阅读全文
posted @ 2018-04-03 15:27 GhostAatrox 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 边界匹配 ^ 头 $ 尾 \A 串头 \Z 串尾 预定义字符集: \d [0-9] 数字 \D [^0-9] \s 匹配任何空白字符 \S匹配任何非空白字符 \w【A-Za-z0-9】 \W【^A-Za-z0-9】 下面记录一个xls存储: import xlwt book = Workbook(e 阅读全文
posted @ 2018-04-03 15:25 GhostAatrox 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 目标:爬取猎聘网深圳的所有python类职位信息并导出xls 网址:https://www.shixiseng.com/interns?k=Python&p=1 思路流程:观察网页的标签等构造 ==> 构造函数获取详细页链接 ==> 进入详细页获取详细信息 ==> 构造分页函数(根据翻页判断何种为翻 阅读全文
posted @ 2018-04-03 13:15 GhostAatrox 阅读(192) 评论(0) 推荐(0) 编辑