随笔分类 - 网络爬虫
摘要:简介 Apache Thrift是Facebook开源的跨语言的RPC通信框架,目前已经捐献给Apache基金会管理,由于其跨语言特性和出色的性能,在很多互联网公司得到应用,有能力的公司甚至会基于thrift研发一套分布式服务框架,增加诸如服务注册、服务发现等功能。 RPC即Remote Proce
阅读全文
摘要:新闻转载统计 输入新闻标题: 来源 页数查询"; for($i=0;$iload($contents); $title=''; $site='未知'; $urlStr=''; //解析页面 foreach($html->find('h3') as $e) { $title=$e->plaintext; //echo '网站:'.'来源:'.$source.''; ...
阅读全文
摘要:最近在做一些爬虫相关的工作,遇到了一个网站,在使用谷歌开发者工具监控的时候,发现他的请求是这样的 我们都知道传统的post请求,所提交的是form data 格式的,key-value键值对的形式提交。这个在爬虫post请求中非常常见。 第一次遇到了这种形式提交的,后面去找了很多方法,发现在百度搜的
阅读全文
摘要:抓手机包可以用的是fiddle。 安装 先在下载页面下载 >Download Fiddler Web Debugging Tool for Free by Telerik 选择你“准备用fiddle来干嘛” 你的邮箱 以及同意“最终用户许可协议”就可以下载了 下载后按照提示安装就可以了。 配置 2.
阅读全文
摘要:附: 所有chromedriver均可在下面链接中下载到: http://chromedriver.storage.googleapis.com/index.html
阅读全文
摘要:conn.setRequestProperty("Accept-Encoding", "utf8, deflate");//注意编码,gzip可能会乱码 总结: 采集文件出现异常,用记事本打开文件查看数据,与实际页面作对比,判断是否是乱码。乱码出现的很大可能就是文件的请求编码问题
阅读全文
摘要:# -*- coding: utf-8 -*- import requests import js2xml from lxml import etree headers = { # 这边cookie替换成你的cookie 'Cookie':'9b', 'User-Agent': 'Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IM...
阅读全文
摘要:X-Forwarded-For(XFF)是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。 Squid 缓存代理服务器的开发人员最早引入了这一HTTP头字段,并由IETF在Forwarded-For HTTP头字段标准化草案中正式提出。这一HTT
阅读全文
摘要:/** * 模拟提交参数,支持https提交 可用于各类api请求 * @param string $url : 提交的地址 * @param array $data :POST数组 * @param string $method : POST/GET,默认GET方式 * @return mixed */ function http($url, $data='', $...
阅读全文
摘要:Python2模拟登陆获取cookie 直接从本地读取cookie模拟登陆 Python3版本
阅读全文
摘要:cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有Coo
阅读全文
摘要:Python设置Headers 这样,我们设置了一个headers,在构建request时传入,在请求时,就加入了headers传送,服务器若识别了是浏览器发来的请求,就会得到响应。 另外,我们还有对付”反盗链”的方式,对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,
阅读全文
摘要:Python爬虫之Urllib库的基本使用 其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入Url,Data等等的内容。比如上面的两行代码,我们可以这么改写 运行结果是完全一样的,只不过中间多了一个request对象,推荐大家这么写,因
阅读全文
摘要:# WeixinCrawler 根据搜狗搜索 关键词采集 微信公众号和相应推文 采集策略:深度搜索采集 核心代码: Github地址: https://github.com/chzeze/WeixinCrawler
阅读全文
摘要:该网站对于采集器存在以下限制: 一、验证码限制 在访问频率较高的情况下会出现访问页面需要输入验证码,如下图: 此验证码的生成方式为动态验证码,即每次访问一次验证码生成链接,生成的验证码都不一样,验证码动态生成链接为:http://wenshu.court.gov.cn/User/ValidateCo
阅读全文
摘要:验证码识别,爬虫永远的话题~ 用打码兔总体的体验就是单线程速度太慢~ 测试结果如下: 用多线程测试,明显快多了 测试30个账号,平均每个3秒
阅读全文
摘要:实验室的一个项目采集亚马逊的商品数据,包括单体和变体采集。最开始的一个demo是单机版的java采集软件,后面根据导师的要求,实现了云端分布式采集——实验室提供采集设备资源,多机分布式多线程采集,用户只需在前台配置所需采集的URL即可,不需要挂机采集,从而给用户提供云端的采集服务。 项目组在实现的其
阅读全文
摘要:本科毕业设计的时候做实验数据集的需要,自己写了一个微博转发的采集器,今晚心血来潮,整理了一下原来的代码,重新写了一个热门微博评论的的采集爬虫、效果不错。 ps:有一个想法就是采集热门微博的评论,然后在自己的账号上自动用脚本发布采集下来的热门评论、这是很有趣的一件事。 2016年12月21日10:44
阅读全文