01_爬虫_crawler - 随笔分类(第3页) - cphmvp

该文被密码保护。

posted @ 2014-03-25 23:45 cphmvp 阅读(15) 评论(0) 推荐(0) 编辑

crawler_单例_基于HttpURLConnection 的单例递归【demo 抓取酒店信息】

该文被密码保护。

posted @ 2014-03-22 18:07 cphmvp 阅读(5) 评论(0) 推荐(0) 编辑

java_软件发布版本_Asynch HttpClien 对比发行版本说明_Alpha、Beta、RC、GA版本的区别

摘要：今天看了一天的apache 的httpasyncclient ,为了和默认的httpclient做个对比，httpcore是核心轻量级的提供传统阻塞IO 和 java NIO两种方式，httpclient基于httpcore做的全功能封装能应付绝大部分爬虫需求，HttpAsyncClient 是基于httpcore NIO 和httpclient基础上做的进一步封装，主要利用异步回调方式，适用于高性能需求的场景下，官方文档如是说：Asynch HttpClientis a HTTP/1.1 compliant HTTP agent implementation based on HttpC 阅读全文

posted @ 2014-03-18 16:36 cphmvp 阅读(644) 评论(0) 推荐(0) 编辑

crawler_解析之_jquery_语法选择器使用方法

摘要：爬虫解析一般使用正则或者给予样式的 jquery语法选择器正则是根本，类比jsoup基于dom，底层也有部分是基于正则实现的，linux操作系统文本处理也是借助强大的正则体现的。关于正则请参考《正则指引》书。正则基本语法：http://cphmvp.diandian.com/post/2012-07-31/40032077081搜索爬虫常用正则：http://cphmvp.diandian.com/post/2012-11-10/40041792417正则的调试工具有很多，推荐个 RegexBuddy 。这里就不多做介绍了或者后续补充。今天着重讲下 jsoup，近期做了一千多个阅读全文

posted @ 2014-03-17 22:12 cphmvp 阅读(315) 评论(0) 推荐(0) 编辑

crawler_JVM_DNS_在爬虫中的应用

摘要：DNS解析：即由域名经过dns解析，跳转到真正服务器的地址，这个重复解析的耗时占请求很大比例。在设计爬虫时比较细粒度的控制下，需要考虑dns解析。 jdk从1.5往后对dns缓存有默认设置，详见jdk源码，不过有部分细节还是需要自己去处理的。JAVA本身对DNS的缓存时间是多久？对于爬虫DNS解析耗时的疑问，第一反应Google之，大致有两种说法：第1种：默认情况下networkaddress.cache.ttl=-1，代表永久缓存（配置文件路径： JAVA_HOME/jre/lib/security/java.security），就是在应用启动之后第一次DNS 解析成功的结果会一直cac 阅读全文

posted @ 2014-03-17 17:46 cphmvp 阅读(795) 评论(0) 推荐(0) 编辑

crawler_工具类_RegexUtils_正则帮助类

摘要：package com.cph.crawler.core.utils;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;/** * * @ClassName: RegexUtils * @Description: 正则帮助类 * @author cphmvp . 阅读全文

posted @ 2014-03-08 22:32 cphmvp 阅读(596) 评论(0) 推荐(0) 编辑

crawler_工具类_HttpClientUtil_基于 HttpClient 4.1.2 实现 httpclient 4.2.4（map传入参数）post 302处理

该文被密码保护。

posted @ 2014-03-08 22:30 cphmvp 阅读(12) 评论(0) 推荐(0) 编辑

crawler_工具类_HtmlUtil_基于 jdk httpurlconnection实现

该文被密码保护。

posted @ 2014-03-08 22:29 cphmvp 阅读(3) 评论(0) 推荐(0) 编辑

crawler_大型舆情架构图

摘要：阅读全文

posted @ 2014-02-25 21:51 cphmvp 阅读(276) 评论(0) 推荐(0) 编辑

crawler_如何从页面获取新浪cookie

摘要：步奏如下： 1 用chrome浏览器（其他浏览器原理相同）打开地址：http://weibo.com/2、点击鼠标右键右键点击查看元素点击Network3、输入用户名密码执行登录4、在Network列表查找访问首页（home？开头的）的地址，保存右侧cookie信息阅读全文

posted @ 2014-02-17 10:19 cphmvp 阅读(403) 评论(0) 推荐(0) 编辑

crawler_httpclient代理访问

摘要：1 public String getDocumentByProxy(String url) 2 throws ClientProtocolException, IOException { 3 DefaultHttpClient httpclient = new DefaultHttpClient(); 4 HttpHost proxy = new HttpHost("127.0.0.1", 8087); 5 httpclient.getParams().setParameter(ConnRoutePNames.DEFA... 阅读全文

posted @ 2014-01-24 17:49 cphmvp 阅读(281) 评论(0) 推荐(0) 编辑

crawler_单例_高大上

该文被密码保护。

posted @ 2014-01-15 13:15 cphmvp 阅读(5) 评论(0) 推荐(0) 编辑

crawler_单例_TestClub(汽车之家bbs，回帖数)

该文被密码保护。

posted @ 2014-01-13 17:15 cphmvp 阅读(5) 评论(0) 推荐(0) 编辑

crawler_单例_chinaz (日均 IP 访问量日均 PV 浏览量)

该文被密码保护。

posted @ 2014-01-08 21:59 cphmvp 阅读(9) 评论(0) 推荐(0) 编辑

crawler_单例_搜报网 (基于搜索post翻页)

该文被密码保护。

posted @ 2014-01-08 11:15 cphmvp 阅读(27) 评论(0) 推荐(0) 编辑

crawler_基础之_httpclient 访问网络资源

摘要：先粘贴一个简单版的，后期再修改pom文件 org.apache.httpcomponents httpasyncclient 4.0-alpha3 compile 1 package com.cph.utils; 2 3 import java.io.IOException; 4 5 import org.apache.http.HttpEntity; 6 import org.apache.http.HttpResponse; 7 import org.apache.http.HttpStatus; 8 import org.apac... 阅读全文

posted @ 2013-12-28 16:27 cphmvp 阅读(646) 评论(0) 推荐(0) 编辑

crawler_jsoup HTML解析器_使用选择器语法来查找元素

摘要：参照：http://www.open-open.com/jsoup/selector-syntax.htm使用选择器语法来查找元素问题你想使用类似于CSS或jQuery的语法来查找和操作元素。方法可以使用Element.select(String selector)和Elements.select(String selector)方法实现：File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/ 阅读全文

posted @ 2013-12-26 09:18 cphmvp 阅读(372) 评论(0) 推荐(0) 编辑

crawler_基础之_java.net.HttpURLConnection 访问网络资源

摘要：java访问网络资源由底层到封装为 scoket==> java.net.HttpURLConnection==>HttpClient这次阐述先 java.net.HttpURLConnection 的方式，好处是用导包，jdk原生自带的。HtmlUtil 包含尝试重连（3次），编码识别，保存文件到磁盘package com.cph.crawler.core.utils;import java.io.BufferedReader;import java.io.File;import java.io.FileOutputStream;import java.io.IOExc 阅读全文

posted @ 2013-12-14 01:11 cphmvp 阅读(422) 评论(0) 推荐(0) 编辑

crawler_分布式网络爬虫的设计与实现_设计图

摘要：一、集中调度式二、p2p三、混合调度式四、大型集群阅读全文

posted @ 2013-12-09 16:16 cphmvp 阅读(409) 评论(0) 推荐(0) 编辑

crawler_UE使用技巧

摘要：UE使用技巧Tip 1: 如何去掉所编辑文本中包含特定字符串的行? 这则技巧是在UltraEdit的帮助文件里提到．CTRL+R 调出来替换(Replace)窗口,选中"使用正则表达式";然后用查找 %*你的字符串*^p 替换成空内容即可.如，我当前有个文本文件，需要去掉所有包含 http://w... 阅读全文

posted @ 2013-09-14 15:43 cphmvp 阅读(510) 评论(2) 推荐(0) 编辑

cphmvp

简单简约 It's me

随笔分类 - 01_爬虫_crawler

公告

cphmvp

简单 简约 It's me

随笔分类 - 01_爬虫_crawler

公告

简单简约 It's me