2008 年 4月 15 日随笔档案 - cping

公告

2008年4月15日

摘要：源码下载地址：http://download.csdn.net/source/414086汉字编码是一项较为麻烦的事情，弄不好就会造出些谁都看不懂的乱码。比如我想做个针对汉字网站的爬虫系统，需要对非特定的页面进行数据解析处理，而此时我所访问的页面编码格式未知，如果不能正确处理页面编码，则很难获得我们理想中的数据。通常这时候可能有几种选择：一是根据response的ContentType获得，如果服务器支持的话此项中会返回charset数值，解析即可。但对不返回或者不支持的服务器则无能为力。二是使用正则或自定义解析函数截取页面中‘charset=’后的数据，采取死钉战术，但万一采集的页面中没有此阅读全文

posted @ 2008-04-15 01:07 cping 阅读(2237) 评论(0) 推荐(0) 编辑

当代大学生的变态生活

摘要：超人者有之自掘坟墓者有之神经者有之服毒者有之变态者有之被虐狂者有之卧轨者有之流浪者有之毁容者有之很黄者有之很暴力者有之其余...... 阅读全文

posted @ 2008-04-15 00:04 cping 阅读(160) 评论(0) 推荐(0) 编辑

Java究竟怎么玩？

公告