QuotedPrintable解码

最近在修改一个开源POP3客户端框架时,碰到了QuotedPrintable乱码的问题,原框架是老外写的,没有考虑到中文的情况。因此在对QuotedPrintable编码的内容进行解码时,是逐个字符进行转换的,英文的当然不会有任何问题。于是在网上搜了一下,发现基于C#的QuotedPrintable解码的代码很少,找到的大部分都是转帖,而且大部分都是采用默认的Encoding进行解码,前提是用了他们自己写的编码方式才能解码。这当然不符合我的要求,既然作为POP3客户端,收到的邮件都是来自不同的服务器,编码方式是动态变化的。

于是只能自己动手去解决,在对原始邮件内容(QuotedPrintable加密的内容)解析时,碰到的主要问题是一个中文字符由多个字节组成,如果字节取得不正确或没有取完整,那么只能解码一部分,会出现个别文字乱码的情况。网上提供的清一色代码都是用字符串截取的方式,但是这种方式不够保险,总会出现截取不完整的情况,或者完全失效。参考开源POP3客户端框架作者采用的正则匹配替换方式,采用替换的方式最为保险。

基本实现方式是,匹配出多个QuotedPrintable编码的内容,比如得到=4F=B5=9F=AB,然后再分解得到单个编码内容如=4F,这样为一个字节的内容,将多个字节放在一个数组,得到一个完整的byte[],接下来就是用对应的编码方式getstring即可。用得到的string替换编码内容,达到解码的方式。

 

QuotedPrintable解码实现
 1         private const string QpSinglePattern = "(\\=([0-9A-F][0-9A-F]))";
 2 
 3         private const string QpMutiplePattern = @"((\=[0-9A-F][0-9A-F])+=?\s*)+";
 4 
 5         public static string Decode(string contents, Encoding encoding)
 6         {
 7             if (contents == null)
 8             {
 9                 throw new ArgumentNullException("contents");
10             }
11 
12             // 替换被编码的内容
13             string result = Regex.Replace(contents, QpMutiplePattern, new MatchEvaluator(delegate(Match m)
14             {
15                 List<byte> buffer = new List<byte>();
16                 // 把匹配得到的多行内容逐个匹配得到后转换成byte数组
17                 MatchCollection matches = Regex.Matches(m.Value, QpSinglePattern, RegexOptions.IgnoreCase | RegexOptions.Compiled);
18                 foreach (Match match in matches)
19                 {
20                     buffer.Add((byte)HexToByte(match.Groups[2].Value.Trim()));
21                 }
22                 return encoding.GetString(buffer.ToArray());
23             }), RegexOptions.IgnoreCase | RegexOptions.Compiled);
24 
25             // 替换多余的链接=号
26             result = Regex.Replace(result, @"=\s+""");
27 
28             return result;
29         }
30 
31         private static int HexToByte(string hex)
32         {
33             int num1 = 0;
34             string text1 = "0123456789ABCDEF";
35             for (int num2 = 0; num2 < hex.Length; num2++)
36             {
37                 if (text1.IndexOf(hex[num2]) == -1)
38                 {
39                     return -1;
40                 }
41                 num1 = (num1 * 0x10+ text1.IndexOf(hex[num2]);
42             }
43             return num1;
44         }

 

 

posted @ 2010-06-19 23:22  神八  阅读(4613)  评论(3编辑  收藏  举报