摘要: http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/几种常见的编码格式为什么要编码不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是... 阅读全文
posted @ 2015-02-10 21:09 lujinhong 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形... 阅读全文
posted @ 2015-02-10 21:07 lujinhong 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章:第一篇:JAVA字符编码系列... 阅读全文
posted @ 2015-02-10 21:05 lujinhong 阅读(145) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/qinysong/article/details/1179489这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各... 阅读全文
posted @ 2015-02-10 21:03 lujinhong 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章:第一篇:JAVA字符编码系列... 阅读全文
posted @ 2015-02-10 21:01 lujinhong 阅读(210) 评论(0) 推荐(0) 编辑
摘要: nutch将从网页中抓取到的信息放入hbase数据库中,默认情况下表名为$crawlId_webpage,但表中的内容以16进制进行表示,直接scan或者通过Java API进行读取均只能读取到16进制信息。 因此nutch提供了readdb选项进行数据获取,将表中的内容读取到一个文本中。具体用法... 阅读全文
posted @ 2015-02-10 14:59 lujinhong 阅读(161) 评论(0) 推荐(0) 编辑