2012 年 10月 17 日随笔档案 - 刺猬的温驯

java 网络1.为什么要非阻塞式？

摘要：先看看多种java通信方式的特点1.阻塞式服务器收到了一个连接，当通信完毕后释放连接，接收新的连接2.阻塞式+线程池可利用java库类中现成的线程池，做起来比较简单为每个用户分配一个线程缺点：虽然可以通过线程池限制线程数防止服务器效率过低，但是线程调度毕竟要消耗资源3.非阻塞式用A，B方式A用1个线程当用一个线程时，采用轮询的方式。看连接，可读，可写3个事件有谁就绪了，就处理谁。例如：如果一个线程连接就绪了，但是可读没有就绪，此时是接受新的连接任务的。对比1（阻塞式）不用像阻塞式一样把一个连接的3个事件（连接，可读，可写就绪）处理完了，才能处理下一个连接对比2（阻塞式+线程池）少了线程调度的开阅读全文

posted @ 2012-10-17 23:48 刺猬的温驯阅读(347) 评论(0) 推荐(0) 编辑

协议处理器urlstreamhandler及contenthandler

摘要：转载http://souljava.blog.163.com/blog/static/255571212007111693218434/先看段打开网页的代码：URLurl=newURL("http://souljava.blog.163.com/");URLConnectionconnection=url.openConnection();connection.getInputStream();问题1：客户端浏览器怎么判断接受到的是什么数据类型？回答：java的附带浏览器JEditorPane会按以下方式，依次判断URLConnectiongetContentType()U 阅读全文

posted @ 2012-10-17 23:47 刺猬的温驯阅读(1981) 评论(1) 推荐(0) 编辑

HTMLParser学习笔记（一）

摘要：转载http://www.cnblogs.com/dlutxm/archive/2011/12/13/2286862.html最近一直在学习搜索引擎的相关知识，在对于原始的HTML网页的处理是其中非常重要的一个环节，也就是所说的“去噪”，比如去掉相关的标签和不需要的JS代码等等，HTMLParser（http://htmlparser.sourceforge.net/）是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目，通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分：文本信息抽取. 阅读全文

posted @ 2012-10-17 23:03 刺猬的温驯阅读(502) 评论(0) 推荐(0) 编辑

HTMLParser学习笔记（二）

摘要：利用HTMLParser来抽取指定标签具有某属性的的文本内容，比如说抽取div标签，具有class属性问hd，抽取其中的文本内容（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。判断类Filter：TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter：AndFilterNotFilterOrFilt 阅读全文

posted @ 2012-10-17 23:03 刺猬的温驯阅读(191) 评论(0) 推荐(0) 编辑

使用 HttpClient 和 HtmlParser 实现简易爬虫(转载)

摘要： HttpClient 与 HtmlParser 简介本小结简单的介绍一下 HttpClinet 和 HtmlParser 两个开源的项目，以及他们的网站和提供下载的地址。HttpClient 简介HTTP 协议是现在的因特网最重要的协议之一。除了 WEB 浏览器之外， WEB 服务，基于网络的应用程序以及日益增长的网络计算不断扩展着 HTTP 协议的角色，使得越来越多的应用程序需要 HTTP 协议的支持。虽然 JAVA 类库 .net 包提供了基本功能，来使用 HTTP 协议访问网络资源，但是其灵活性和功能远不能满足很多应用程序的需要。而 Jakarta Commons HttpClient 阅读全文

posted @ 2012-10-17 17:22 刺猬的温驯阅读(361) 评论(0) 推荐(0) 编辑

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣