君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2012年10月17日 #

摘要: 先看看多种java通信方式的特点1.阻塞式服务器收到了一个连接,当通信完毕后释放连接,接收新的连接2.阻塞式+线程池可利用java库类中现成的线程池,做起来比较简单为每个用户分配一个线程缺点:虽然可以通过线程池限制线程数防止服务器效率过低,但是线程调度毕竟要消耗资源3.非阻塞式用A,B方式A用1个线程当用一个线程时,采用轮询的方式。看连接,可读,可写3个事件有谁就绪了,就处理谁。例如:如果一个线程连接就绪了,但是可读没有就绪,此时是接受新的连接任务的。对比1(阻塞式)不用像阻塞式一样把一个连接的3个事件(连接,可读,可写就绪)处理完了,才能处理下一个连接对比2(阻塞式+线程池)少了线程调度的开 阅读全文
posted @ 2012-10-17 23:48 刺猬的温驯 阅读(347) 评论(0) 推荐(0) 编辑

摘要: 转载http://souljava.blog.163.com/blog/static/255571212007111693218434/先看段打开网页的代码:URLurl=newURL("http://souljava.blog.163.com/");URLConnectionconnection=url.openConnection();connection.getInputStream();问题1:客户端浏览器怎么判断接受到的是什么数据类型?回答:java的附带浏览器JEditorPane会按以下方式,依次判断URLConnectiongetContentType()U 阅读全文
posted @ 2012-10-17 23:47 刺猬的温驯 阅读(1981) 评论(1) 推荐(0) 编辑

摘要: 转载http://www.cnblogs.com/dlutxm/archive/2011/12/13/2286862.html最近一直在学习搜索引擎的相关知识,在对于原始的HTML网页的处理是其中非常重要的一个环节,也就是所说的“去噪”,比如去掉相关的标签和不需要的JS代码等等,HTMLParser(http://htmlparser.sourceforge.net/)是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目,通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分: 文本信息抽取. 阅读全文
posted @ 2012-10-17 23:03 刺猬的温驯 阅读(502) 评论(0) 推荐(0) 编辑

摘要: 利用HTMLParser来抽取指定标签具有某属性的的文本内容,比如说抽取div标签,具有class属性问hd,抽取其中的文本内容(一)Filter类顾名思义,Filter就是对于结果进行过滤,取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。判断类Filter:TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter:AndFilterNotFilterOrFilt 阅读全文
posted @ 2012-10-17 23:03 刺猬的温驯 阅读(191) 评论(0) 推荐(0) 编辑

摘要: HttpClient 与 HtmlParser 简介本小结简单的介绍一下 HttpClinet 和 HtmlParser 两个开源的项目,以及他们的网站和提供下载的地址。HttpClient 简介HTTP 协议是现在的因特网最重要的协议之一。除了 WEB 浏览器之外, WEB 服务,基于网络的应用程序以及日益增长的网络计算不断扩展着 HTTP 协议的角色,使得越来越多的应用程序需要 HTTP 协议的支持。虽然 JAVA 类库 .net 包提供了基本功能,来使用 HTTP 协议访问网络资源,但是其灵活性和功能远不能满足很多应用程序的需要。而 Jakarta Commons HttpClient 阅读全文
posted @ 2012-10-17 17:22 刺猬的温驯 阅读(361) 评论(0) 推荐(0) 编辑