关于BinaryReader读取数据：在构造函数中指定编码格式

问题描述：使用BinaryReader从文件中读取数据，开始在创建BinaryReader实例的时候，未指定编码格式，结果能通过编译，但是能在执行过程中会报错如下：“未处理的异常: System.ArgumentException: 输出字符缓冲区太小，无法包含解码后的字符，编码“Unicode (UTF-8)”的操作回退“System.Text.DecoderReplacementFallback”。”

解决过程：

　　首先附上创建文件的代码：

BinaryWriter

1 using System;
2 using System.IO;
3
4 class binaryReader
5 {
6     static void Main ()
7     {
8         FileInfo f = new FileInfo("BinFile2.dat");
9         BinaryWriter bw = new BinaryWriter(f.OpenWrite());
10
11         Console.WriteLine("Base Stream is : {0}",bw.BaseStream);
12
13         double aDouble = 1234.67;
14         int anInt = 32141;
15         char[] aCharArray = {'A','B','C'};
16         string aString = @"teststring";
17
18         bw.Write(aDouble);
19         bw.Write(anInt);
20         bw.Write(aCharArray);
21         bw.Write(aString);
22         bw.Close();
23
24     }
25 }

　　然后附上BinaryReader测试代码：

BinaryReader

1 using System;
2 using System.IO;
3 using System.Text;
4
5 class binaryReader
6 {
7     static void Main()
8     {
9         FileInfo f2 = new FileInfo("BinFile2.dat");
10
11                 BinaryReader br = new BinaryReader(f2.OpenRead());
12         //BinaryReader br = new BinaryReader(f2.OpenRead(),Encoding.Default);
13
14         int temp = 0;
15
16         while (br.PeekChar() != -1)
17
18         {
19             Console.Write("{0,7:x}",br.ReadByte());
20
21             if (++temp == 4)
22             {
23                 Console.WriteLine();
24                 temp = 0;
25             }
26
27         }
28         Console.WriteLine();
29     }
30 }

　　还有错误提示：

　　由上，之输出第一字符的16进制编码，剩下的就开始报错。但是觉得“字符缓冲区太小”是个很诡异的错误，然后就在网上搜了下，看看别人是怎么做的。

　　第一次，在CSDN上看见有人给出了解决的方案，如题目所言，在创建BinaryReader实例的时候，指定其编码方式，就像上面代码中注释掉的那一行那样，就能够解决问题，将所有字符的16进制编码正常输出。

　　这样，问题首先集中到编码上。默认的编码方式有问题，必须指定，才能避免错误。那什么样的编码是可行的，什么样的编码有问题？在Encoding里面，枚举了六种编码方式：UTF7、UTF8、Unicode、BigEndianUnicode、UTF32和Default。要说的是这里的Default是指：System.Text.DBCSCodePageEncoding。接下来，我做了一个测试，枚举每一种编码方式，在上面的代码中挨个试一遍。结果发现，在我写的那个BinFile2.dat测试文件上，除了UTF-8运行失败外，其他的每种方式都是成功的（此处截图省略）。那么，就可以推断，不带编码指定的BinaryReader的构造函数默认使用的是UTF-8的编码，而这样在读取过程中试有问题的。

　　现在，至少知道用该用那种编码了。

　　问题再进一步，在函数块内部，在读取文件的过程中，是哪个函数调用对编码有“苛刻”的要求？在上面的函数块中，只包含两个方法的调用，一个是while语句中的PeekChar()，一个是Console.WriteLine()。我觉得后者的可能性不大，于是做了如下的测试：

BinaryReader2

1 using System;
2 using System.IO;
3 using System.Text;
4
5 class binaryReader
6 {
7     static void Main()
8     {
9         FileInfo f2 = new FileInfo("BinFile2.dat");
10
11         BinaryReader br = new BinaryReader(f2.OpenRead(),Encoding.Default);
12         int temp = 0;
13         int count=20;
14         while (count>0)
15         {
16             Console.Write("{0,7:x}",br.ReadByte());
17
18             if (++temp == 4)
19             {
20                 Console.WriteLine();
21                 temp = 0;
22             }
23
24                         count--;
25         }
26         Console.WriteLine();
27     }
28 }

　　结果，除了没能完全输出字符之外，运行正常，于是，问题集中在了PeekChar()上面。上面用它来判断文件的边界，MSDN中描述“下一个可用的字符，或者，如果没有可用字符或者流不支持查找时为 -1。”也就是说，PeekChar()在判断是否到边界的过程中，有一个预读的过程，结合上面的编码的问题，可以猜测，在它预读的时候由于编码的不合适，导致在该方法内部的缓冲区的溢出。

　　又在网上找到一文《不要使用PeekChar()判断EOF》，文中只是说不要用PeekChar来判断EOF，而是使用判断条件 ( br.BaseStream.Position < br.BaseStream.Length)，但是并没有给出详细的理由。

　　而后，又发现了老外也在讨论这个问题：http://bytes.com/topic/visual-basic-net/answers/349779-binaryreader-peekchar-argumentexception-conversion-buffer-overflow

　　……

　　继续深入下去，有两个点要解决：1、UTF-8编码的问题；2、PeekChar的工作详细细节。

总结：通过以上的一系列做法，对BinaryReader的使用有了一些粗浅的了解，在使用过程中，能够合理利用，避开容易出错的地方，但是，根本的问题还未能真正解决。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

更深入的明日再续。

posted @ 2010-03-22 22:46 郝玉琨阅读(4342) 评论(0) 编辑收藏举报

刷新页面返回顶部

YFYkuner

琨鹏击浪

关于BinaryReader读取数据：在构造函数中指定编码格式

公告