【转载】正则过滤所有html标签,只留文字的方法。
public static string Html2Text(string htmlStr) { if (String.IsNullOrEmpty(htmlStr)) { return ""; } string regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 string regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式 string regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式 htmlStr = Regex.Replace(htmlStr, regEx_style, "");//删除css htmlStr = Regex.Replace(htmlStr, regEx_script, "");//删除js htmlStr = Regex.Replace(htmlStr, regEx_html, "");//删除html标记 htmlStr = Regex.Replace(htmlStr, "\\s*|\t|\r|\n", "");//去除tab、空格、空行 htmlStr = htmlStr.Replace(" ", ""); htmlStr = htmlStr.Replace(""", "");//去除异常的引号" " " htmlStr = htmlStr.Replace(""", ""); return htmlStr.Trim(); } Html2Text
转载地址:http://www.cnblogs.com/ben121011/p/5778880.html?utm_source=tuicool&utm_medium=referral