网络爬虫 - 随笔分类 - 陈泽泽

【Java】分布式RPC通信框架Apache Thrift 使用总结

摘要：简介 Apache Thrift是Facebook开源的跨语言的RPC通信框架，目前已经捐献给Apache基金会管理，由于其跨语言特性和出色的性能，在很多互联网公司得到应用，有能力的公司甚至会基于thrift研发一套分布式服务框架，增加诸如服务注册、服务发现等功能。 RPC即Remote Proce 阅读全文

posted @ 2018-03-23 09:59 陈泽泽阅读(4158) 评论(0) 推荐(0)

【PHP爬虫】curl+simple_html_dom 抓取百度最新消息新闻标题，来源，URL

摘要：新闻转载统计输入新闻标题: 来源页数查询"; for($i=0;$iload($contents); $title=''; $site='未知'; $urlStr=''; //解析页面 foreach($html->find('h3') as $e) { $title=$e->plaintext; //echo '网站：'.'来源:'.$source.''; ... 阅读全文

posted @ 2017-11-20 17:24 陈泽泽阅读(544) 评论(0) 推荐(0)

HttpClient request payload post请求

摘要：最近在做一些爬虫相关的工作，遇到了一个网站，在使用谷歌开发者工具监控的时候，发现他的请求是这样的我们都知道传统的post请求，所提交的是form data 格式的，key-value键值对的形式提交。这个在爬虫post请求中非常常见。第一次遇到了这种形式提交的，后面去找了很多方法，发现在百度搜的阅读全文

posted @ 2017-08-28 09:59 陈泽泽阅读(2477) 评论(0) 推荐(0)

手机抓包fiddle4的安装及配置

摘要：抓手机包可以用的是fiddle。安装先在下载页面下载 >Download Fiddler Web Debugging Tool for Free by Telerik 选择你“准备用fiddle来干嘛” 你的邮箱以及同意“最终用户许可协议”就可以下载了下载后按照提示安装就可以了。配置 2. 阅读全文

posted @ 2017-08-03 08:36 陈泽泽阅读(651) 评论(0) 推荐(0)

代理服务器系统Anyproxy安装与配置

只有注册用户登录后才能阅读该文。

posted @ 2017-08-03 08:32 陈泽泽阅读(19) 评论(0) 推荐(0)

【自动化测试】selenium之 chromedriver与chrome版本映射表

摘要：附：所有chromedriver均可在下面链接中下载到： http://chromedriver.storage.googleapis.com/index.html 阅读全文

posted @ 2017-06-19 09:30 陈泽泽阅读(830) 评论(0) 推荐(0)

【Java】通用版URLConnection 带cookie下载PDF等资源文件

摘要：conn.setRequestProperty("Accept-Encoding", "utf8, deflate");//注意编码，gzip可能会乱码总结：采集文件出现异常，用记事本打开文件查看数据，与实际页面作对比，判断是否是乱码。乱码出现的很大可能就是文件的请求编码问题阅读全文

posted @ 2017-06-14 08:53 陈泽泽阅读(1636) 评论(0) 推荐(0)

【Python】微博自动抢红包

摘要：# -*- coding: utf-8 -*- import requests import js2xml from lxml import etree headers = { # 这边cookie替换成你的cookie 'Cookie':'9b', 'User-Agent': 'Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IM... 阅读全文

posted @ 2017-06-11 15:59 陈泽泽阅读(2571) 评论(0) 推荐(0)

【X-Forwarded-For】WEB修改访客IP

摘要：X-Forwarded-For(XFF)是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。 Squid 缓存代理服务器的开发人员最早引入了这一HTTP头字段，并由IETF在Forwarded-For HTTP头字段标准化草案中正式提出。这一HTT 阅读全文

posted @ 2017-05-30 23:16 陈泽泽阅读(699) 评论(0) 推荐(0)

【php】https请求

摘要：/** * 模拟提交参数，支持https提交可用于各类api请求 * @param string $url ：提交的地址 * @param array $data :POST数组 * @param string $method : POST/GET，默认GET方式 * @return mixed */ function http($url, $data='', $... 阅读全文

posted @ 2017-05-25 10:24 陈泽泽阅读(486) 评论(0) 推荐(0)

【Python爬虫】教务处模拟登陆

摘要：Python2模拟登陆获取cookie 直接从本地读取cookie模拟登陆 Python3版本阅读全文

posted @ 2017-04-14 16:12 陈泽泽阅读(1941) 评论(0) 推荐(1)

Python之Cookielib

摘要：cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有Coo 阅读全文

posted @ 2017-04-14 15:42 陈泽泽阅读(628) 评论(0) 推荐(0)

Python爬虫设置Headers

摘要：Python设置Headers 这样，我们设置了一个headers，在构建request时传入，在请求时，就加入了headers传送，服务器若识别了是浏览器发来的请求，就会得到响应。另外，我们还有对付”反盗链”的方式，对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，阅读全文

posted @ 2017-04-14 11:38 陈泽泽阅读(21595) 评论(0) 推荐(0)

Python爬虫之Urllib库的基本使用

摘要：Python爬虫之Urllib库的基本使用其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例，构造时需要传入Url,Data等等的内容。比如上面的两行代码，我们可以这么改写运行结果是完全一样的，只不过中间多了一个request对象，推荐大家这么写，因阅读全文

posted @ 2017-04-14 11:32 陈泽泽阅读(392) 评论(0) 推荐(0)

【网络爬虫】微信公众号采集

摘要：# WeixinCrawler 根据搜狗搜索关键词采集微信公众号和相应推文采集策略：深度搜索采集核心代码： Github地址： https://github.com/chzeze/WeixinCrawler 阅读全文

posted @ 2017-04-02 23:08 陈泽泽阅读(537) 评论(0) 推荐(0)

裁判文书网采集说明

摘要：该网站对于采集器存在以下限制：一、验证码限制在访问频率较高的情况下会出现访问页面需要输入验证码，如下图：此验证码的生成方式为动态验证码，即每次访问一次验证码生成链接，生成的验证码都不一样，验证码动态生成链接为：http://wenshu.court.gov.cn/User/ValidateCo 阅读全文

posted @ 2017-02-17 10:23 陈泽泽阅读(979) 评论(1) 推荐(0)

Java 验证码识别之多线程打码兔

摘要：验证码识别，爬虫永远的话题~ 用打码兔总体的体验就是单线程速度太慢~ 测试结果如下：用多线程测试，明显快多了测试30个账号，平均每个3秒阅读全文

posted @ 2017-02-15 19:23 陈泽泽阅读(3566) 评论(0) 推荐(0)

亚马逊云平台采集转单机采集实现

摘要：实验室的一个项目采集亚马逊的商品数据，包括单体和变体采集。最开始的一个demo是单机版的java采集软件，后面根据导师的要求，实现了云端分布式采集——实验室提供采集设备资源，多机分布式多线程采集，用户只需在前台配置所需采集的URL即可，不需要挂机采集，从而给用户提供云端的采集服务。项目组在实现的其阅读全文

posted @ 2016-12-15 08:49 陈泽泽阅读(451) 评论(0) 推荐(0)

新浪微博热门评论爬虫采集

摘要：本科毕业设计的时候做实验数据集的需要，自己写了一个微博转发的采集器，今晚心血来潮，整理了一下原来的代码，重新写了一个热门微博评论的的采集爬虫、效果不错。 ps：有一个想法就是采集热门微博的评论，然后在自己的账号上自动用脚本发布采集下来的热门评论、这是很有趣的一件事。 2016年12月21日10:44 阅读全文

posted @ 2016-11-27 01:23 陈泽泽阅读(583) 评论(0) 推荐(0)

HTTP响应消息中的状态代码

摘要：阅读全文

posted @ 2016-11-21 09:36 陈泽泽阅读(157) 评论(0) 推荐(0)

TopCoderのZeze

At Ease, What You Want, Time Will Give You

随笔分类 - 网络爬虫

公告