QuotedPrintable解码

最近在修改一个开源POP3客户端框架时，碰到了QuotedPrintable乱码的问题，原框架是老外写的，没有考虑到中文的情况。因此在对QuotedPrintable编码的内容进行解码时，是逐个字符进行转换的，英文的当然不会有任何问题。于是在网上搜了一下，发现基于C#的QuotedPrintable解码的代码很少，找到的大部分都是转帖，而且大部分都是采用默认的Encoding进行解码，前提是用了他们自己写的编码方式才能解码。这当然不符合我的要求，既然作为POP3客户端，收到的邮件都是来自不同的服务器，编码方式是动态变化的。

于是只能自己动手去解决，在对原始邮件内容(QuotedPrintable加密的内容）解析时，碰到的主要问题是一个中文字符由多个字节组成，如果字节取得不正确或没有取完整，那么只能解码一部分，会出现个别文字乱码的情况。网上提供的清一色代码都是用字符串截取的方式，但是这种方式不够保险，总会出现截取不完整的情况，或者完全失效。参考开源POP3客户端框架作者采用的正则匹配替换方式，采用替换的方式最为保险。

基本实现方式是，匹配出多个QuotedPrintable编码的内容，比如得到=4F=B5=9F=AB，然后再分解得到单个编码内容如=4F，这样为一个字节的内容，将多个字节放在一个数组，得到一个完整的byte[],接下来就是用对应的编码方式getstring即可。用得到的string替换编码内容，达到解码的方式。

QuotedPrintable解码实现

1         private const string QpSinglePattern = "(\\=([0-9A-F][0-9A-F]))";
2
3         private const string QpMutiplePattern = @"((\=[0-9A-F][0-9A-F])+=?\s*)+";
4
5         public static string Decode(string contents, Encoding encoding)
6         {
7             if (contents == null)
8             {
9                 throw new ArgumentNullException("contents");
10             }
11
12             // 替换被编码的内容
13             string result = Regex.Replace(contents, QpMutiplePattern, new MatchEvaluator(delegate(Match m)
14             {
15                 List<byte> buffer = new List<byte>();
16                 // 把匹配得到的多行内容逐个匹配得到后转换成byte数组
17                 MatchCollection matches = Regex.Matches(m.Value, QpSinglePattern, RegexOptions.IgnoreCase | RegexOptions.Compiled);
18                 foreach (Match match in matches)
19                 {
20                     buffer.Add((byte)HexToByte(match.Groups[2].Value.Trim()));
21                 }
22                 return encoding.GetString(buffer.ToArray());
23             }), RegexOptions.IgnoreCase | RegexOptions.Compiled);
24
25             // 替换多余的链接=号
26             result = Regex.Replace(result, @"=\s+", "");
27
28             return result;
29         }
30
31         private static int HexToByte(string hex)
32         {
33             int num1 = 0;
34             string text1 = "0123456789ABCDEF";
35             for (int num2 = 0; num2 < hex.Length; num2++)
36             {
37                 if (text1.IndexOf(hex[num2]) == -1)
38                 {
39                     return -1;
40                 }
41                 num1 = (num1 * 0x10) + text1.IndexOf(hex[num2]);
42             }
43             return num1;
44         }

posted @ 2010-06-19 23:22 神八阅读(4613) 评论(3) 编辑收藏举报

刷新页面返回顶部

shenba

闻道有先后，术业有专攻，如是而已。

QuotedPrintable解码

公告