Python_爬虫 - 随笔分类 - 贺健龙

python 爬虫亚航指定日期间的航线

摘要：前两天在BOSS上找爬虫工作，投了N份简历，很少有回复的，唯一能看到点希望的是一家旅游公司，BOSS上回复说：要求做一些航空公司的爬虫，做好之后把思路和一些数据发过去，再谈后续的面试问题。发过来两个爬虫项目，说如果面试通过，会根据所选的爬虫项目进行工资定级，我选了这个据说是难度更大一些的：air 阅读全文

posted @ 2019-02-27 15:28 贺健龙阅读(1291) 评论(4) 推荐(0) 编辑

python 爬虫 anyproxy

摘要：# 链接：https://github.com/hejianlong/wechat_spider 阅读全文

posted @ 2019-01-10 16:19 贺健龙阅读(787) 评论(0) 推荐(0) 编辑

python_scrapy_filespipe重写

摘要：主要原因：需要下载文件并保留原有后缀名，但scrapy的下载管道没有这个选项，需要重新定义filespipelines功能，参考其他人的文件，阅读全文

posted @ 2019-01-08 09:40 贺健龙阅读(882) 评论(0) 推荐(0) 编辑

python_celery redis的读取

摘要：2、aqicn.py # 读取队列进行任务解析并存储 3、redis_read.py # 从redis数据库中取值并删除原值，且一旦有新值传入，继续读取并删除，做到持久化，可以直接展示，或者存到mysql数据中阅读全文

posted @ 2018-12-03 09:25 贺健龙阅读(1364) 评论(1) 推荐(1) 编辑

python_scrapy_log日志

摘要：执行自动化操作时，如果出错，需要通过日志功能保存错误信息，这里写下从网上找到的相关配置资料阅读全文

posted @ 2018-11-26 11:29 贺健龙阅读(610) 评论(0) 推荐(0) 编辑

python_爬虫_str类型的html文本去标签

摘要：参考：https://www.cnblogs.com/AlwinXu/p/5492033.html 阅读全文

posted @ 2018-09-05 17:20 贺健龙阅读(2234) 评论(0) 推荐(0) 编辑

python_爬虫_通过selenium获取人人网cookie值并模拟登陆个人界面

摘要：平台：mac 网站：人人网最近练习爬虫登陆，方法一是找页面里的js文件，通过解析js文件找到cookie信息再保持。但现在的站点登陆都有验证码，而且最烦的是request时data表单里的值基本上没有不加密的，js学的不好，就别想着破解了。所以想起了用的比较少的selenium模块，用于模拟登陆并阅读全文

posted @ 2018-08-14 23:37 贺健龙阅读(1873) 评论(0) 推荐(0) 编辑

python_爬虫_模块

摘要：正常情况下，每写一个爬虫，都需要执行分析->请求->响应->下载(存储)的流程，但诸多功能，其实都是在重复造轮子，比如请求、调用请求头、post请求data值，可以将这些功能写到一个py文件里，这样再写其他爬虫文件时，直接调用，就可以略过输入请求头、post传参转码等诸多操作。阅读全文

posted @ 2018-08-13 19:37 贺健龙阅读(143) 评论(0) 推荐(0) 编辑

python_爬虫_微信公众号抓取

摘要：目前卡在视频部分，公众号的视频来源是腾讯视频，播放和下载地址都是加密的，目前vid及vkey均已经获取，但使用爬虫得到的结果永远是403、405，尚未解决。考虑方法： selenium当页面加载后查看广告用时，等广告加载时间过去后再点击视频，再由网页中获取加载的视频地址进行下载，明天测试看有无阅读全文

posted @ 2018-08-05 00:04 贺健龙阅读(3832) 评论(0) 推荐(0) 编辑

python_爬虫_multiprocessing.dummy以及multiprocessing

摘要：使用16线程爬取腾讯的招聘的100页分页信息，用时6秒左右（3M网速）阅读全文

posted @ 2018-07-21 08:15 贺健龙阅读(1512) 评论(0) 推荐(0) 编辑

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

摘要：软件：charles、pycharm 平台：mac 网址：https://view.inews.qq.com/a/20180718A1WSEB00?uid= 第一步：获取api接口 1、电脑中安装charles抓包软件，与手机处于同一wifi网络下，将charles作为手机端的代理服务器。主机名：阅读全文

posted @ 2018-07-20 12:33 贺健龙阅读(678) 评论(0) 推荐(0) 编辑

python_爬虫_Charles手机证书安装问题

摘要：电脑：mac 手机：小米5s 原因：通过小米手机自带浏览器登陆Charles指定的下载界面(电脑点击上图位置可显示证书下载路径)，会自动下载一个.crt格式证书文件，但无法安装，经常提示安装失败，证证不存在等问题。解决：无意使用第三方浏览器再次下载，下载的文件是一个非证书的.pem格式文件，这时只阅读全文

posted @ 2018-07-16 09:34 贺健龙阅读(210) 评论(0) 推荐(0) 编辑

python_爬虫_爬取7*24小时财经新闻

摘要：import requests import timefrom bs4 import BeautifulSoup def sina(): is_first = True task_q = [] # 本地存储新闻 task_time = [] while True: data_list = getNews() if is_firs... 阅读全文

posted @ 2018-07-10 20:48 贺健龙阅读(3318) 评论(5) 推荐(0) 编辑

龙道人

随笔分类 - Python_爬虫

公告