cool! ruby版编码探测器[Universal Encoding Detector in Ruby]
以前一直想用java来作一个类似的东西, 今天看到ruby这边已经有了
-----
gem install chardet -y
-----
require 'rubygems'
require 'UniversalDetector'
require 'net/http'
Net::HTTP.version_1_2
Net::HTTP.start( 'www.sina.com.cn' ) {|http|
data = http.get("/").body
p UniversalDetector::chardet(data)
}
它是python版本的移植, 居然有个confidence参数 , 偶测试了国内几个站点, 都很准确, 不过偶发现只要是utf8或者gb2312, 返回的confidence全部都是0.99, 只有国外某些纯ascii的网页会返回1.0
-----
gem install chardet -y
-----
require 'rubygems'
require 'UniversalDetector'
require 'net/http'
Net::HTTP.version_1_2
Net::HTTP.start( 'www.sina.com.cn' ) {|http|
data = http.get("/").body
p UniversalDetector::chardet(data)
}
它是python版本的移植, 居然有个confidence参数 , 偶测试了国内几个站点, 都很准确, 不过偶发现只要是utf8或者gb2312, 返回的confidence全部都是0.99, 只有国外某些纯ascii的网页会返回1.0