剔除HTML文档的HTML标记,转换为纯文本

将文章用文本格式保存,而不是直接使用HTML存储,这样的话会节约数据库空间.
于是写了这么个函数来将文本中的HTML标记剔除 
 
函数虽然简单,但是对处理HTML文档还是很有效的 
<
Function RemoveHTML(strHTML) 
 
Dim objRegExp, Match, Matches    
 
Set objRegExp = New Regexp 
  
 objRegExp.IgnoreCase 
= True 
 objRegExp.Global 
= True 
 
'取闭合的<> 
 objRegExp.Pattern = "<.+?>" 
 
'进行匹配 
 Set Matches = objRegExp.Execute(strHTML) 
  
 
' 遍历匹配集合,并替换掉匹配的项目 
 For Each Match in Matches    
     strHtml
=Replace(strHTML,Match.Value,""
 
Next 
 RemoveHTML
=strHTML 
 
Set objRegExp = Nothing 
End Function 
 
%
> 
posted @ 2005-03-10 18:32  阿泰  阅读(1092)  评论(0编辑  收藏  举报