摘要:
http://shengxichen.iteye.com/blog/9947801. check out源码,svn地址为:http://svn.apache.org/repos/asf/tomcat/trunk2. 重命名build.properties.default为build.propert... 阅读全文
随笔档案-2012年09月
【转载】IT从业人员必看的10个论坛
2012-09-11 18:46 by Loull, 224 阅读, 收藏, 编辑
摘要:
IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多,往哪里去,新浪论坛,网易是经常去的,人多啊,好几十万,去了以后才发现没有意思,没有共同的语言,于是逛专业论坛,行业论坛,终于找到了共同语言,总结一下论坛的经验:人不在多,有仙则灵,贴不在多,有精则行,逛了大半辈子,一个IT人发展方向一定要除了技术外,业务,理论,思想一个都不能少,于是我推荐如下这些论坛,或许真能帮助您,做论坛,都是赔本的买卖,不收费还帮助你学习,得向斑竹们致敬啊。 以下论坛排名不分先后,还有许多业界知名的论坛,主要有点偏门,这个不做概述,呵呵。 IT技术开发综合类 ... 阅读全文
【java】【实践】阅读代码,一些较好的实践
2012-09-11 18:37 by Loull, 226 阅读, 收藏, 编辑
摘要:
1、http://jcs.mobile-utopia.com/jcs/6065_DataSourceImpl.java调试代码/************************/ /***** Internal API *****/ /************************/ ... 阅读全文
【设计】【爬虫】针对某一主题做的爬虫,使用Jsoup解析
2012-09-06 23:59 by Loull, 667 阅读, 收藏, 编辑
摘要:
作为总结:1、这次做了一个非常糟糕的设计:我采用了深度优先搜索,当初之所以采用这种方式,是因为我要爬的数据都在搜索树的叶节点上,这样可以在代码中少用一个队列,事实上,这是个烂到家的设计。非叶节点的页面会长时间占着内存。一般爬虫会采用广度优先搜索,把要访问的连接保存在一个队列里面,好处:A、访问过的页面占用的内存能被回收B、速度更快,每个页面只解析一次。(虽然深度优先也是只解析一次,但虚拟机要帮忙维护很多小队列,以保持每个页面解析出来的链接)C、容易实现多线程并行爬数据。只要保持对队列的同步,多个线程就可以同时爬数据。2、对异常的态度A、对待致命错误,要退出程序,不要吸收。B、对待非致命异常,吸 阅读全文
【java】【HtmlParser】HtmlParser使用
2012-09-04 16:31 by Loull, 3815 阅读, 收藏, 编辑
摘要:
HTMLParser的核心模块是org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数:public Parser ();public Parser (Lexer lexer, ParserFeedback fb);public Parse... 阅读全文