随笔分类 - Python_爬虫
摘要:前两天在BOSS上找爬虫工作,投了N份简历,很少有回复的,唯一能看到点希望的是一家旅游公司,BOSS上回复说:要求做一些航空公司的爬虫,做好之后把思路和一些数据发过去,再谈后续的面试问题。 发过来两个爬虫项目,说如果面试通过,会根据所选的爬虫项目进行工资定级,我选了这个据说是难度更大一些的:air
阅读全文
摘要:# 链接:https://github.com/hejianlong/wechat_spider
阅读全文
摘要:主要原因:需要下载文件并保留原有后缀名,但scrapy的下载管道没有这个选项,需要重新定义filespipelines功能,参考其他人的文件,
阅读全文
摘要:2、aqicn.py # 读取队列进行任务解析并存储 3、redis_read.py # 从redis数据库中取值并删除原值,且一旦有新值传入,继续读取并删除,做到持久化,可以直接展示,或者存到mysql数据中
阅读全文
摘要:执行自动化操作时,如果出错,需要通过日志功能保存错误信息,这里写下从网上找到的相关配置资料
阅读全文
摘要:参考:https://www.cnblogs.com/AlwinXu/p/5492033.html
阅读全文
摘要:平台:mac 网站:人人网 最近练习爬虫登陆,方法一是找页面里的js文件,通过解析js文件找到cookie信息再保持。但现在的站点登陆都有验证码,而且最烦的是request时data表单里的值基本上没有不加密的,js学的不好,就别想着破解了。所以想起了用的比较少的selenium模块,用于模拟登陆并
阅读全文
摘要:正常情况下,每写一个爬虫,都需要执行分析->请求->响应->下载(存储)的流程,但诸多功能,其实都是在重复造轮子,比如请求、调用请求头、post请求data值,可以将这些功能写到一个py文件里,这样再写其他爬虫文件时, 直接调用,就可以略过输入请求头、post传参转码等诸多操作。
阅读全文
摘要:目前卡在视频部分,公众号的视频来源是腾讯视频,播放和下载地址都是加密的,目前vid及vkey均已经获取,但使用爬虫得到的结果永远是403、405,尚未解决。 考虑方法: selenium当页面加载后查看广告用时,等广告加载时间过去后再点击视频,再由网页中获取加载的视频地址进行下载,明天测试看有无
阅读全文
摘要:使用16线程爬取腾讯的招聘的100页分页信息,用时6秒左右(3M网速)
阅读全文
摘要:软件:charles、pycharm 平台:mac 网址:https://view.inews.qq.com/a/20180718A1WSEB00?uid= 第一步:获取api接口 1、电脑中安装charles抓包软件,与手机处于同一wifi网络下,将charles作为手机端的代理服务器。 主机名:
阅读全文
摘要:电脑:mac 手机:小米5s 原因:通过小米手机自带浏览器登陆Charles指定的下载界面(电脑点击上图位置可显示证书下载路径),会自动下载一个.crt格式证书文件,但无法安装,经常提示安装失败,证证不存在等问题。 解决:无意使用第三方浏览器再次下载,下载的文件是一个非证书的.pem格式文件,这时只
阅读全文
摘要:import requests import timefrom bs4 import BeautifulSoup def sina(): is_first = True task_q = [] # 本地存储新闻 task_time = [] while True: data_list = getNews() if is_firs...
阅读全文