随笔档案「2012年9月」 - Loull

【java】tomcat 7源码编译及eclipse导入

2012-09-16 16:24 by Loull, 500 阅读, 收藏,

摘要： http://shengxichen.iteye.com/blog/9947801. check out源码,svn地址为:http://svn.apache.org/repos/asf/tomcat/trunk2. 重命名build.properties.default为build.propert... 阅读全文

0 Comment

摘要： IT方面的论坛太多了，有综合，有专业，有行业，在各个论坛里混了几年，体会颇深，以前是论坛哪里人多，往哪里去，新浪论坛，网易是经常去的，人多啊，好几十万，去了以后才发现没有意思，没有共同的语言，于是逛专业论坛，行业论坛，终于找到了共同语言，总结一下论坛的经验：人不在多，有仙则灵，贴不在多，有精则行，逛了大半辈子，一个IT人发展方向一定要除了技术外，业务，理论，思想一个都不能少，于是我推荐如下这些论坛，或许真能帮助您，做论坛，都是赔本的买卖，不收费还帮助你学习，得向斑竹们致敬啊。以下论坛排名不分先后，还有许多业界知名的论坛，主要有点偏门，这个不做概述，呵呵。 IT技术开发综合类 ... 阅读全文

0 Comment

【java】【实践】阅读代码，一些较好的实践

2012-09-11 18:37 by Loull, 244 阅读, 收藏,

摘要： 1、http://jcs.mobile-utopia.com/jcs/6065_DataSourceImpl.java调试代码/************************/ /***** Internal API *****/ /************************/ ... 阅读全文

0 Comment

【设计】【爬虫】针对某一主题做的爬虫，使用Jsoup解析

2012-09-06 23:59 by Loull, 680 阅读, 收藏,

摘要：作为总结：1、这次做了一个非常糟糕的设计：我采用了深度优先搜索，当初之所以采用这种方式，是因为我要爬的数据都在搜索树的叶节点上，这样可以在代码中少用一个队列，事实上，这是个烂到家的设计。非叶节点的页面会长时间占着内存。一般爬虫会采用广度优先搜索，把要访问的连接保存在一个队列里面，好处：A、访问过的页面占用的内存能被回收B、速度更快，每个页面只解析一次。（虽然深度优先也是只解析一次，但虚拟机要帮忙维护很多小队列，以保持每个页面解析出来的链接）C、容易实现多线程并行爬数据。只要保持对队列的同步，多个线程就可以同时爬数据。2、对异常的态度A、对待致命错误，要退出程序，不要吸收。B、对待非致命异常，吸阅读全文

0 Comment

【java】【HtmlParser】HtmlParser使用

2012-09-04 16:31 by Loull, 4190 阅读, 收藏,

摘要： HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：public Parser ();public Parser (Lexer lexer, ParserFeedback fb);public Parse... 阅读全文

0 Comment

Loull

随笔档案-2012年09月

【java】tomcat 7源码编译及eclipse导入

【转载】IT从业人员必看的10个论坛

【java】【实践】阅读代码，一些较好的实践

【设计】【爬虫】针对某一主题做的爬虫，使用Jsoup解析

【java】【HtmlParser】HtmlParser使用

About