cool! ruby版编码探测器[Universal Encoding Detector in Ruby]

以前一直想用java来作一个类似的东西, 今天看到ruby这边已经有了
-----
gem install chardet -y
-----

require 'rubygems'
require 'UniversalDetector'
require 'net/http'
Net::HTTP.version_1_2
Net::HTTP.start( 'www.sina.com.cn' ) {|http|
    data = http.get("/").body
    p UniversalDetector::chardet(data)
}
它是python版本的移植,  居然有个confidence参数 , 偶测试了国内几个站点, 都很准确, 不过偶发现只要是utf8或者gb2312, 返回的confidence全部都是0.99, 只有国外某些纯ascii的网页会返回1.0
posted @ 2006-03-29 11:39  tech.cap  阅读(208)  评论(0编辑  收藏  举报