随笔分类 -  01_爬虫_crawler

摘要:个人总结爬虫的学习曲线,可分为三个阶段,一、 主要在填充基础知识,要熟悉http协议,学习正则表达式,首先基于jdk的基础包的网络功能,.net包下的 httpurlconnction从细节上简单访问网络数据,进一步可以减去一些繁琐的封装功能(请求参数),使用httpClient (4.2.1)版... 阅读全文
posted @ 2013-09-05 22:52 cphmvp 阅读(577) 评论(0) 推荐(0) 编辑
摘要:所谓爬虫,首先要通过各种手段爬取到想要站点的数据。 web2.0之后,各种网络站点类型越来越多,早期的站点多为静态页面【html 、htm】,后来逐步加入 jsp。asp,等交互性强的页面。再后来随着js的兴起,也处于站点的美观和易于维护,越来越多的ajax异步请求方式数据站点。[不扯犊子了 ,马上上示例]参与工作时间不是很长,但工作期间一直做不同的爬虫项目。对常见的页面数据获取,有一些简单的认识。 接触到的页面分为三类。A 静态页面(数据在源码中直接可以获取到)B数据在基源码中没有,携带请求数据请求,在浏览器解析过程中,封装出含数据的源码C数据在浏览器解析后的源码中 没有,是通过页面的js函 阅读全文
posted @ 2013-09-04 23:40 cphmvp 阅读(1283) 评论(0) 推荐(0) 编辑
摘要:俗话说工欲善其事必先利其器,做java网络爬虫开发分析网页的分析工具,抓包工具比不可少,一下是个人常用的几个工具。1、firefox低版本是为了支持httpwather , ie各个版本都支持httpwather插件,2、httpwatcher 是一个浏览器插件,用以观察每次通过浏览器建立http请求时,的后台请求【含请求头,request信息和respone】 主要用以分析后台json请求,ajax请求的页面,个人也比较倾向于中个插件工具,安装方法,直接next。3、JGsoft.RegexBuddy.v3.5.0.Retail-ZWT 俗称猫头鹰,用以正则匹配,调试。4、ue,是一个很.. 阅读全文
posted @ 2013-09-04 23:38 cphmvp 阅读(584) 评论(0) 推荐(0) 编辑
摘要:1 package cph; 2 3 import java.util.HashMap; 4 import java.util.Iterator; 5 import java.util.Map; 6 7 public class SimilarDegreeByCos 8 { 9 /*10 * 计算两个字符串(英文字符)的相似度,简单的余弦计算,未添权重11 */ 12 public static double getSimilarDegree(String str1, String str2) 13 { 14 /... 阅读全文
posted @ 2013-09-04 11:44 cphmvp 阅读(294) 评论(0) 推荐(0) 编辑
摘要:引言 HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下: 1.支持客户/服务器模式。 2.简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规 阅读全文
posted @ 2013-09-04 00:32 cphmvp 阅读(334) 评论(0) 推荐(0) 编辑

爬虫在线测试小工具: http://tool.haoshuju.cn/