摘要:
The important point about Java HTML parsing is to use a parser designed for it. While you can parse HTML using the default XML parser, it's a brittle thing because it will only accept well formed, strict XHTML.TagSoup libraryHence, I highly recommend using the TagSoup library which slots right i 阅读全文
2013年5月14日 #
摘要:
一千年的时光,我无数次掀起岁月的帷幔,只为和你,在某一个平静如水的日子相遇,然后相识,倾情一生,缱绻一世,好美的散文,好吧,我情愿把这个“你”当作android;),使用sax解析xml文件是我见到过的最为简单的一种解析xml的方式了。Java代码SAXParserFactory factory = SAXParserFactory.newInstance(); SAXParser parser = factory.newSAXParser(); XMLReader xmlReader = parser.getXMLReader(); xmlReader.setContent... 阅读全文
2013年5月12日 #
摘要:
如果说Heritrix3.1.0系统主要涉及的是客户端的SOCKET编程,那么本系列的How Tomcat Works主要涉及的是服务器端的SOCKET编程目前关于解析Tomcat源码的文章比较多,本人在时间足够的情况下,会陆续写完自己的版本,一来是为增强编程能力,同时也为读者借鉴为了更方便的查看并... 阅读全文
摘要:
接下来本文还要继续分析Heritrix3.1.0系统中的CrawlController类及BdbFrontier类,因为本人觉得前面部分对相关逻辑还没用理清头绪,更重要的原因是由于每篇文章的关注点不同,本人不能在同一篇文章将相关类的所有关注点一一道来本文要分析的是,Heritrix3.1.0系统是怎... 阅读全文
2013年5月11日 #
摘要:
1 引言2008年1月17日,中国互联网络信息中心(CNNIC)发布了《第21次中国互联网络发展状况统计报告》[1],报告显示:(1) 截至2007年12月,网民数已增至2.1亿人。中国网民数增长迅速,比2007年6月增加4800万人,2007年一年则增加了7300万人,年增长率达到53.3%。,在过去一年中平均每天增加网民20万人。(2) 目前中国的网民人数略低于美国的2.15亿 ,位于世界第二位。目前中国网站数量已达150万个,比去年同期增长了66万个,增长率达到78.4%。博客/个人空间等众多网络应用需求、域名数量增长的拉动及创建网站操作的简单化等因素作用在一起,共同使得网站数量猛增。( 阅读全文
2013年5月10日 #
摘要:
转载自http://chooli.iteye.com/blog/636689这里简单地对Alfresco项目进行一下介绍吧,很多人可能对于Alfresco能做什么,对比别的开源产品,有什么特点可能不是很了解。产品的定位Alfresco是面向企业级应用的内容管理系统,它的基础是一个Document Management,为用户提供了面向企业文档管理的一系列软件工具,用户可以通过Alfresco对文档进行存储、共享、版本控制、工作流程处理、讨论等操作;用国内通俗的话来说,是一个OA方面的产品;但Alfresco的应用范围决不仅仅是一个文档管理工具,随着Alfresco的社区开发人员的不断努力,Al 阅读全文
2013年5月9日 #
摘要:
网上讲的用Ant编译eclipse hadoop plugin插件,都讲的很复杂,对于我这样的菜鸟哪里经得起这么多折腾,本人经过实践,写出我的编译经验首先请预先安装ant并设置环境变量,下载hadoop-1.1.2.tar.gz源码解压修改${hadoop.root}/src/contrib目录的b... 阅读全文
摘要:
本文参考hadoop权威指南,开发一个单词统计的程序,首先需要下载hadoop相应版本的依赖文件,本人是采用的maven项目管理,在pom.xml文件加入依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> <version>1.1.2</version> <type>jar</type> <scope>compile</scope> < 阅读全文
2013年5月7日 #
摘要:
本文接下来先分析CandidatesProcessor处理器,我们称之为候选处理器,该处理器的功能是对网页抽取的外链进行过滤,通过过滤的链接则添加到Frontier边界部件的BdbWorkQueue工作队列;CandidatesProcessor处理器对CrawlURI candidate对象的过滤... 阅读全文
2013年5月5日 #
摘要:
本文主要分析FetchFTP处理器,该处理器用于ftp文件的下载,该处理器的实现是通过封装commons-net-2.0.jar组件来实现ftp文件下载在FetchFTP处理器里面定义了内部类SocketFactoryWithTimeout(SOCKET工厂),用于创建SOCKET/** *... 阅读全文