07 2010 档案
摘要:Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。WebLe...
阅读全文
摘要:1、HttpClient的功能基于标准,纯正java,实现了http1.0和1.1。在一个可扩展的OO框架内,实现了HTTP的全部方法(GET, POST, PUT, DELETE, HEAD, OPTIONS, and TRACE)支持HTTPS(ssl上的HTTP)的加密操作透明地穿过HTTP代理建立连接通过CONNECT方法,利用通过建立穿过HTTP代理的HTTPS连接利用本地Java so...
阅读全文
摘要:今天在看深入Java虚拟机的class文件结构时,看到了这么一句话,可能出现在class文件中的两种编译器产生的方法是:实例初始化方法(名为<init>)和类与接口初始化方法(名为<clinit>)。这两种方法有什么区别呢?首先:这两个方法一个是虚拟机在装载一个类初始化的时候调用的(clinit)。另一个是在类实例化时调用的(init)首先说说类的初始化:在Java代码中,...
阅读全文
摘要:Floyd算法用于求解任意两点间的最短距离,准许两点间有负的权值,但是一般不准许出现负的环路,其算法复杂度为O(n3),相对于Dijkstra算法,其计算更为简单,但我自己重新复习的时候,觉得原理越简单,其实理解起来越难,也许你会明白程序怎么写,但为什么这样有时候总容易忘记。今天闲来无事,复习一下Floyd算法和Warshall算法,将自己写的一个垃圾代码放上去,供自己以后看看,代码质量肯定不高,...
阅读全文