Java究竟怎么玩?

天地程序已定棋,人间大数待变局

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2008年4月15日

摘要: 源码下载地址:http://download.csdn.net/source/414086汉字编码是一项较为麻烦的事情,弄不好就会造出些谁都看不懂的乱码。比如我想做个针对汉字网站的爬虫系统,需要对非特定的页面进行数据解析处理,而此时我所访问的页面编码格式未知,如果不能正确处理页面编码,则很难获得我们理想中的数据。通常这时候可能有几种选择:一是根据response的ContentType获得,如果服务器支持的话此项中会返回charset数值,解析即可。但对不返回或者不支持的服务器则无能为力。二是使用正则或自定义解析函数截取页面中‘charset=’后的数据,采取死钉战术,但万一采集的页面中没有此 阅读全文
posted @ 2008-04-15 01:07 cping 阅读(2237) 评论(0) 推荐(0) 编辑

摘要: 超人者有之 自掘坟墓者有之 神经者有之 服毒者有之 变态者有之 被虐狂者有之 卧轨者有之 流浪者有之 毁容者有之 很黄者有之 很暴力者有之 其余...... 阅读全文
posted @ 2008-04-15 00:04 cping 阅读(160) 评论(0) 推荐(0) 编辑