06 2009 档案
摘要:WebSphinx,Jobo等爬虫的Http分析 看了一些开源的网络爬虫代码,把注意都集中在一些细节的设计模式上,感觉对整个系统的整体把握不够,于是打算花点时间好好分析一下各个爬虫对Http的处理。第一个问题就是如果去获取远程的网页,在Java里面可以采用下面的简单方式:1) 自己写代码,通过URL获取,代码如下:[代码]2. 利用HttpClient包进行相应的处理:(与上面的代码相比,Http...
阅读全文
摘要:HtmlParser的数据组织分析:Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应的html文本的方法,定义了该节点对应的起至位置,定义了过滤方法,定义了Visitor访问机制。[代码]AbstractNode是Node的一种具体的类实现,起到了构造树形结构的作用,除...
阅读全文
摘要:http://blog.chinaunix.net/u3/97478/showart_1948724.html 错误连接和死连接的测试工具:Xenu:http://home.snafu.de/tilman/xenulink.html#DescriptionW3C Link Checker 用于搜寻查明你网站内的所有链接里是否有断链。( 强烈推荐 )http://validator.w3.org/-...
阅读全文
摘要:XUL视频:http://www.ajaxbingo.com/bbsshow.php?ds=58XUL学习笔记资料:http://zsp.javaeye.com/blog/232047 http://www.ibm.com/developerworks/cn/edu/x-dw-x-xulintro.html
阅读全文
摘要:基本概念:JavaCC: Java Compiler Compiler 是一个用JAVA开发的最受欢迎的语法分析生成器。这个分析生成器工具可以读取上下文无关且有着特殊意义的语法并把它转换成可以识别且匹配该语法的JAVA程序。它还提供JJTree等工具来帮助我们建立语法树 。巴克斯范式:BNF 是一種用於表示上下文無關文法的語言,上下文無關文法描述了一類形式語言。儘管巴科斯範式也能表示一部分自然語言...
阅读全文
摘要:软件测试重要资料汇集:http://www.cnblogs.com/cate/testing/Solex is a free open source Web application testing tool built as a plug-in for the Eclipse IDE. It provides functions to record a client session, adjust...
阅读全文
摘要:算法系列: 人工神经网络系列文章: http://www.cnblogs.com/gpcuster/archive/2008/05/22/1204705.html http://www.codeproject.com/KB/recipes/aforge_neuro.aspx 一个很好的Machine
阅读全文


浙公网安备 33010602011771号