Cpdetector编码识别

概述

浏览器在打开一个网页时，首要任务是判断网页的编码格式，然后采用合适的编码进行解析；我们常用的文本编辑器在打开文档时同样需要判断文档的编码进行相应的解析。这涉及到的技术就是编码甄别，下面我们介绍一款比较好用的Java 库。

在http://sourceforge.net/projects/cpdetector/这个地址可以下载到。

实例

不做过多赘述了，直接贴出实例代码。

package com.coder4j.main.cpdetector;

import info.monitorenter.cpdetector.io.ASCIIDetector;
import info.monitorenter.cpdetector.io.ByteOrderMarkDetector;
import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
import info.monitorenter.cpdetector.io.JChardetFacade;
import info.monitorenter.cpdetector.io.ParsingDetector;
import info.monitorenter.cpdetector.io.UnicodeDetector;

import java.net.MalformedURLException;
import java.net.URL;

/**
 * 导入如下jar<br>
 * cpdetector_1.0.10.jar,antlr-2.7.4.jar,chardet-1.0.jar
*
 * @author Chinaxiang
 * @date 2015-10-11
*
*/
public class UseCpdetector {

/**
 * 获取URL的编码
*
 * @param url
 * @return
*/
 public static String getUrlEncode(URL url) {
/*
 * detector是探测器，它把探测任务交给具体的探测实现类的实例完成。
 * cpDetector内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法 加进来，如ParsingDetector、
 * JChardetFacade、ASCIIDetector、UnicodeDetector。
 * detector按照“谁最先返回非空的探测结果，就以该结果为准”的原则返回探测到的
 * 字符集编码。使用需要用到三个第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar
 * cpDetector是基于统计学原理的，不保证完全正确。
*/
 CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
/*
 * ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于
 * 指示是否显示探测过程的详细信息，为false不显示。
*/
 detector.add(new ParsingDetector(false));
 detector.add(new ByteOrderMarkDetector());
/*
 * JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成大多数文件的编码
 * 测定。所以，一般有了这个探测器就可满足大多数项目的要求，如果你还不放心，可以
 * 再多加几个探测器，比如下面的ASCIIDetector、UnicodeDetector等。
*
 * 用到antlr.jar、chardet.jar
*/
detector.add(JChardetFacade.getInstance());
 // ASCIIDetector用于ASCII编码测定
detector.add(ASCIIDetector.getInstance());
 // UnicodeDetector用于Unicode家族编码的测定
detector.add(UnicodeDetector.getInstance());


 java.nio.charset.Charset charset = null;
 try {
 charset = detector.detectCodepage(url);
 } catch (Exception ex) {
ex.printStackTrace();
}
 if (charset != null) {
 return charset.name();
}
 return null;
}

 public static void main(String[] args) {
 try {
 URL url = new URL("http://www.baidu.com");
 String encode = getUrlEncode(url);
 System.out.println(encode);// UTF-8
 } catch (MalformedURLException e) {
e.printStackTrace();
}
}

}

View Code

文件的路径也可以转为URL，所以对文件编码的判断你应该会了。

posted @ 2016-05-24 00:04 EliteQing 阅读(1766) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

E-Mail：给我写信

交流群：数据分析&网络爬虫

关于我：日拱一卒,功不唐捐；勇猛精进，志愿无倦。Done is better than perfect.

公告栏：本站转载内容一般均保留原链接，若不幸侵犯了你的权益请通过上述方式联系，我会第一时间修正完善。

资源链接：
1.免费代理
 2.HTTP在线测试
 3.Stack Overflow
4.在线工具
 5.Search Code
6.Java API Demon
7.Java Source Code Search 2.0
8.快搜-Googel

昵称： EliteQing
园龄： 9年6个月
粉丝： 40
关注： 55

2025年3月

日

一

二

三

四

五

六

Welcome to EliteQing's Blog

Cpdetector编码识别

概述

实例

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论