随笔- 154 文章- 0 评论- 318 阅读- 60万

C# UTF8的BOM导致XML序列化与反序列化报错：Data at the root level is invalid. Line 1, position 1.

　　最近在写一个xml序列化及反序列化实现时碰到个问题，大致类似下面的代码：　　

    class Program
    {
        static void Main1(string[] args)
        {
            var test = new Test() { A = "test" };

            var ms = new MemoryStream();
            using (XmlWriter xmlWriter = XmlWriter.Create(ms, new XmlWriterSettings() { Encoding = Encoding.UTF8, OmitXmlDeclaration = true }))//OmitXmlDeclaration表示是否需要xml申明头
            {
                XmlSerializer xz = new XmlSerializer(typeof(Test));
                XmlSerializerNamespaces ns = new XmlSerializerNamespaces();
                ns.Add(string.Empty, string.Empty);//去掉xmlns属性
                xz.Serialize(xmlWriter, test, ns);

                var xml = Encoding.UTF8.GetString(ms.ToArray());//得到xml
                XmlDocument xmlDocument = new XmlDocument();
                xmlDocument.LoadXml(xml);//报错:Data at the root level is invalid. Line 1, position 1.
            }
        }
    }
    public class Test
    {
        public string A { get; set; }
    }

　　上面代码序列化出来的那个xml变量值是：<Test><A>test</A></Test>，但是在XMLDocument.LoadXml(xml)方法报错：Data at the root level is invalid. Line 1, position 1.

　　于是我将xml变量的值在调试状态下复制出来，接着在Main方法中写了下面的测试代码：　　　

    static void Main(string[] args)
    {
        string str1 = "<Test><A>test</A></Test>";
        string str2 = "<Test><A>test</A></Test>";
        Console.WriteLine("str1 == str2:" + (str1 == str2));//str1 == str2:False
        Console.WriteLine("str1.Length=" + str1.Length);//str1.Length=24
        Console.WriteLine("str2.Length=" + str2.Length);//str2.Length=25
        Console.ReadKey();
    }

　　因为一直没遇到过这个问题，所以感觉很奇怪，然后查了一些资料，最后发现是UTF-8的BOM在作怪.

　　什么是BOM？BOM的全称叫做" Byte Order Mark"，UTF-8编码数据会在文件开头使用“EF BB BF”这三个字节表示BOM，而BOM的存在是为了区别字节序，存在BOM表示采用小端法，即低位在前边。

　　对于UTF-8而言，因为它的编码单元就是字节，所以是没有字节序问题，但是UTF-16和UTF-32的编码单元分别是16-bit和32-bit，就对字节序要求了。

　　比如，"\u4FA5"对应中文的“侥“，"\u5AF4"对应中文的“嫴“，如果两台不同的字节序的客户端A,B，A给B发送数据"\u4FA5"，B可能就会认为是“嫴“，这就出错了。

　　UTF-8虽然没有字节序问题，但为了兼容，UTF-8也会加上BOM。

　　其实，如果注意一下，上面的例子中，str2的第一个字符是一个空字符，而不是<，而我们要解决UTF-8的BOM导致的数据问题时，只需要使用UTF8Encoding类传入false参数即可，例如上面的例子：　　

    class Program
    {
        static void Main(string[] args)
        {
            var test = new Test() { A = "test" };

            var ms = new MemoryStream();
            using (XmlWriter xmlWriter = XmlWriter.Create(ms, new XmlWriterSettings() { Encoding = new UTF8Encoding(false), OmitXmlDeclaration = true }))//使用UTF8Encoding
            {
                XmlSerializer xz = new XmlSerializer(typeof(Test));
                XmlSerializerNamespaces ns = new XmlSerializerNamespaces(); 
                ns.Add(string.Empty, string.Empty);//去掉xmlns属性
                xz.Serialize(xmlWriter, test, ns);

                var xml = Encoding.UTF8.GetString(ms.ToArray());//得到xml，不含BOM
                XmlDocument xmlDocument = new XmlDocument();
                xmlDocument.LoadXml(xml);//不报错报错
            }
        }
    }
    public class Test
    {
        public string A { get; set; }
    }

posted @ 2021-03-01 17:55 没有星星的夏季阅读(1619) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

历史上的今天：
2020-03-01 C# 服务器发送邮件失败

公告

昵称：没有星星的夏季
园龄： 8年5个月
粉丝： 225
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

C#(60)

.Net Core(43)

linux(38)

rabbitmq(10)

zookeeper(9)

java(8)

没有星星的夏季

C# UTF8的BOM导致XML序列化与反序列化报错：Data at the root level is invalid. Line 1, position 1.

公告

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

推荐排行榜

最新评论