随笔分类 -  Python_爬虫

摘要:前两天在BOSS上找爬虫工作,投了N份简历,很少有回复的,唯一能看到点希望的是一家旅游公司,BOSS上回复说:要求做一些航空公司的爬虫,做好之后把思路和一些数据发过去,再谈后续的面试问题。 发过来两个爬虫项目,说如果面试通过,会根据所选的爬虫项目进行工资定级,我选了这个据说是难度更大一些的:air 阅读全文
posted @ 2019-02-27 15:28 贺健龙 阅读(1291) 评论(4) 推荐(0) 编辑
摘要:# 链接:https://github.com/hejianlong/wechat_spider 阅读全文
posted @ 2019-01-10 16:19 贺健龙 阅读(787) 评论(0) 推荐(0) 编辑
摘要:主要原因:需要下载文件并保留原有后缀名,但scrapy的下载管道没有这个选项,需要重新定义filespipelines功能,参考其他人的文件, 阅读全文
posted @ 2019-01-08 09:40 贺健龙 阅读(882) 评论(0) 推荐(0) 编辑
摘要:2、aqicn.py # 读取队列进行任务解析并存储 3、redis_read.py # 从redis数据库中取值并删除原值,且一旦有新值传入,继续读取并删除,做到持久化,可以直接展示,或者存到mysql数据中 阅读全文
posted @ 2018-12-03 09:25 贺健龙 阅读(1364) 评论(1) 推荐(1) 编辑
摘要:执行自动化操作时,如果出错,需要通过日志功能保存错误信息,这里写下从网上找到的相关配置资料 阅读全文
posted @ 2018-11-26 11:29 贺健龙 阅读(610) 评论(0) 推荐(0) 编辑
摘要:参考:https://www.cnblogs.com/AlwinXu/p/5492033.html 阅读全文
posted @ 2018-09-05 17:20 贺健龙 阅读(2234) 评论(0) 推荐(0) 编辑
摘要:平台:mac 网站:人人网 最近练习爬虫登陆,方法一是找页面里的js文件,通过解析js文件找到cookie信息再保持。但现在的站点登陆都有验证码,而且最烦的是request时data表单里的值基本上没有不加密的,js学的不好,就别想着破解了。所以想起了用的比较少的selenium模块,用于模拟登陆并 阅读全文
posted @ 2018-08-14 23:37 贺健龙 阅读(1873) 评论(0) 推荐(0) 编辑
摘要:正常情况下,每写一个爬虫,都需要执行分析->请求->响应->下载(存储)的流程,但诸多功能,其实都是在重复造轮子,比如请求、调用请求头、post请求data值,可以将这些功能写到一个py文件里,这样再写其他爬虫文件时, 直接调用,就可以略过输入请求头、post传参转码等诸多操作。 阅读全文
posted @ 2018-08-13 19:37 贺健龙 阅读(143) 评论(0) 推荐(0) 编辑
摘要:目前卡在视频部分,公众号的视频来源是腾讯视频,播放和下载地址都是加密的,目前vid及vkey均已经获取,但使用爬虫得到的结果永远是403、405,尚未解决。 考虑方法: selenium当页面加载后查看广告用时,等广告加载时间过去后再点击视频,再由网页中获取加载的视频地址进行下载,明天测试看有无 阅读全文
posted @ 2018-08-05 00:04 贺健龙 阅读(3832) 评论(0) 推荐(0) 编辑
摘要:使用16线程爬取腾讯的招聘的100页分页信息,用时6秒左右(3M网速) 阅读全文
posted @ 2018-07-21 08:15 贺健龙 阅读(1512) 评论(0) 推荐(0) 编辑
摘要:软件:charles、pycharm 平台:mac 网址:https://view.inews.qq.com/a/20180718A1WSEB00?uid= 第一步:获取api接口 1、电脑中安装charles抓包软件,与手机处于同一wifi网络下,将charles作为手机端的代理服务器。 主机名: 阅读全文
posted @ 2018-07-20 12:33 贺健龙 阅读(678) 评论(0) 推荐(0) 编辑
摘要:电脑:mac 手机:小米5s 原因:通过小米手机自带浏览器登陆Charles指定的下载界面(电脑点击上图位置可显示证书下载路径),会自动下载一个.crt格式证书文件,但无法安装,经常提示安装失败,证证不存在等问题。 解决:无意使用第三方浏览器再次下载,下载的文件是一个非证书的.pem格式文件,这时只 阅读全文
posted @ 2018-07-16 09:34 贺健龙 阅读(210) 评论(0) 推荐(0) 编辑
摘要:import requests import timefrom bs4 import BeautifulSoup def sina(): is_first = True task_q = [] # 本地存储新闻 task_time = [] while True: data_list = getNews() if is_firs... 阅读全文
posted @ 2018-07-10 20:48 贺健龙 阅读(3318) 评论(5) 推荐(0) 编辑