XML文件解析器TXml

前几天看了开源的XML文件解析器TinyXml，它是怎么实现解析的没怎么看懂，于是决定自己实现一个，反正最近不忙。先命名为TXml。现在完成了解析和查询功能，全部代码加起来不到1000行，将会继续完善它。源码必共享

先简单说一下我的思路：

1：读取XML文件信息，并存入一个字符数组中；

2：遍历数组，将数组解析成一棵树；

3：以路径的方式查询和按属性查询；

这个解析器最麻烦的地方就在怎么将字符数组解析成一颗树。我们先看一下一个简单XML文件，他包括文件头、节点、节点名称及节点值、属性名称及属性值，子节点、父节点、注释等。

<?xml version="1.0" encoding="utf-8" ?>
<!--注释-->
<Items>
  <item name="chentaihan">89757</item>
</Items>

简单介绍一下解析的实现，不太好说清楚，看代码可能更容易理解一些。递归实现，每次都从一个节点开始解析，就是从字符“<”开始，到字符“>”结束，字符<后面就是节点的名称，之后的就是节点属性，字符>后一个字符如果不是<，那就是节点的值，如果是字符<,可能是子节点也可能是这个节点结束了。遇到字符<开始递归，空格和注释直接被PASS。大致代码如下：

const char* TXmlParser::ParseContent(const char* p,XmlNode* baseNode)
{ 
    if(p==NULL || !*p) 
        return NULL; 
    if(*p=='<')//开始一个节点
    {
        bool isNote;
        p=SkipNote(p,isNote);//跳过注释
        if(isNote) {//是注释
            ParseContent(p,baseNode); 
            return NULL;
        } 
        if(*p=='/')//结束节点
        {
            while(p!=NULL && *p && *p!='>')
            {
                p++;
            } 
            ++p=SkipWhiteSpace(p);
            ParseContent(p,baseNode->parent);//新节点
        }else{ //节点属性  
            string name;
            while(p!=NULL && *p && *p!='>' && *p!=' ' && *p!='/')
            {
                 name.push_back(*p++); 
            }
            XmlNode* node=new XmlNode(name,baseNode);
            baseNode->AppendNode(node);

            if(*p=='>')
            {
                ++p=SkipWhiteSpace(p); 
                ParseContent(p,node);//新节点
            }else{
                p=GetAttr(p,node);
                if(*p=='/')
                {
                    while(p!=NULL && *p && *p!='<')
                        p++;
                    ParseContent(p,baseNode);//新节点
                }else{
                    ++p=SkipWhiteSpace(p);  
                    ParseContent(p,node);//新节点
                }
            }  
        }
    }else{//节点的值 
        GetNodeValue(p,baseNode);
    } 
}

按路径的方式查询。利用两个数组实现，假设这两个数组分别为A,B；第一次查询将结果存入数组A，将A作为数据源，将查询结果存入B，清除A中的数据，将B作为数据源，将查询结果存入A，反复进行，最后A,B中有一个就是查询结果。当然也可以用递归实现，我们都知道递归太深容易爆线程栈，且性能低。

按属性查询。同样没有用递归实现，有个经常出现的面试题：按层序打印一个棵树。那么这里也是按层序查找，就是利用一个队列，按根节点、根节点的直接子节点进栈，一个个匹配，不匹配就出队列。

//根据属性查询--利用队列按层序查询
XmlNode* XmlNode::SelectSingleNodeByAttr(const string& attrName,const string& attrValue,XmlNode* node)
{  
    if(node==NULL)
        return NULL; 
    if(node->attribute!=NULL && (*node->attribute)[attrName]==attrValue)
    { 
        return node;
    } 
    queue<XmlNode*> list; 
    for(int i=node->ChildCount()-1;i>=0;i--)
    {
        list.push((*node->childNodes)[i]); 
    }

    while(list.size()>0)
    {
        XmlNode* tmpNode=list.front();
        if(tmpNode->attribute!=NULL && (*tmpNode->attribute)[attrName]==attrValue)
        { 
            return tmpNode;
        }
        for(int i=tmpNode->ChildCount()-1;i>=0;i--)
        {
            list.push((*tmpNode->childNodes)[i]); 
        }
        list.pop();
    } 
    return NULL;
}

看了按属性查找，我们就很容易知道，C#中ConfigurationManager读取配置文件的大致实现，因为配置文件很简单，就是一个节点下面有多个节点，完全可以这样实现，根节点基本可以无视，直接就是一个字典，KEY存key的值，VALUE存value的值，查找的时间复杂度就是O(1)。

简单测试：

#include "XmlDocument.h"
 
int main()
{
    {    
        XmlDocument doc;
        doc.Load("test.txt");   
        cout<<"XML头部："<<doc.Head().c_str()<<endl;
        cout<<"显示全部学生成绩：" ;
        doc.ShowXML(doc);  
        cout<<endl;
        vector<XmlNode*> vect;
        doc.SelectNodes("students/student/courses/course",vect);
         
        XmlNode* node=doc.SelectSingleNode("students/Student/courses/course/Course"); 

        if(node!=NULL)
        {
            node->ShowXML(*node); 
            cout<<"name:"<<node->Name().c_str()<<endl;
            cout<<"属性：";
            node->ShowAttr() ; 
            cout<<endl;
            cout<<"value:"<<node->Value().c_str()<<endl;
            cout<<"ChildCount:"<<node->ChildCount()<<endl<<endl;
            
             XmlNode::Iterator iter=node->begin();
            while(iter!=node->end())
            { 
                cout<<"name:"<<(*((iter)._Ptr))->Name().c_str() <<endl;
                cout<<"value:"<<(*((iter)._Ptr))->Value().c_str() <<endl; 
                iter++;
            }  
        }   
        cout<<"查找name=‘英文’的节点："<<endl;
        XmlNode* node2=doc.SelectSingleNodeByAttr("name","英文");
        if(node2!=NULL){
            node2->ShowXML(*node2); 
        }
    }
    
    system("pause");
    return 0;
}

运行结果如下：

未完...待续...功能将会更加丰富，我们都值得期待!

posted @ 2013-04-11 15:58 啊汉阅读(6341) 评论(3) 编辑收藏举报

刷新页面返回顶部

XML文件解析器TXml

公告