Html网页源码，删除元素之间空格等冗余字符

说下，为何要删除html源代码的元素之间的空格或换行等冗余字符串，

主要是方便后面对网页源代码中使用正则表达式抽取各种规则的资源文件或链接或其他标签做好准备工作。

       using System.Text.RegularExpressions; //正则表达式

        /// <summary>
        /// 将html源代码元素之间“\t” "\r\n" “空格字符” 删除
        /// </summary>
        public static void ClearHtmlCode()
        {
            int imgNum = 0;
            string str_html_code = @"
<a href=""http://www.kandian5.com/yingshi/dianying/"" title="""">电影资讯</a>

<a href=""http://www.kandian5.com/yingshi/yugao/"" title="""">新片预告</a>";

            // >{1}* 表示>的字符，数目为1个
            // [\r\n]* 表示\r\n的短语，数目为0或n个
            // [^><]* 表示非>或非<的任意字符，数目为0或n个
            // 将html元素之间“\t” "\r\n" “空格字符” 删除
            Regex reg = new Regex(">{1}[\r\n]*[^><]*\t*[^><]* *[^><]*<{1}".ToUpper(), RegexOptions.IgnoreCase);

            MatchCollection match_lst = reg.Matches(str_html_code, 0);
            imgNum = match_lst.Count;
            string str_tmp = "";
            foreach (Match item in match_lst)
            {
                str_tmp = item.ToString();
                Console.WriteLine(str_tmp + "\r\n");

                str_html_code = str_html_code.Replace(str_tmp, str_tmp.Replace(" ", "").Replace("\r\n", "").Replace("\t", "")); // 将html元素之间“\r\n”等冗余字符删除
            }

            Console.WriteLine(str_html_code);
            Console.ReadLine();
        }

posted @ 2014-06-21 22:52 tiandong 阅读(680) 评论(0) 编辑收藏举报

刷新页面返回顶部

千里之行始于足下

记录下曾经走过的足迹

Html网页源码，删除元素之间空格等冗余字符

公告