博客园  :: 首页  :: 新随笔  :: 联系 :: 管理

截取文章一部分显示(无损html)

Posted on 2010-05-04 21:36  codingsilence  阅读(285)  评论(0编辑  收藏  举报

最近在做一些内容搜索的工作,搜索出来的内容为html格式,列表部分需要显示每项内容的一部分。因为是html格式的内容,直接截取内容的前多少字符显然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求了。(js写的,因为容易调试)

代码
var br = {};
br.spTags 
= ["img","br","hr"];/*不需要成对出现的标记*/
br.contain 
= function(arr,it){
    
for(var i=0,len=arr.length;i<len;i++){
        
if(arr[i]==it){
            
return true;    
        }
    }
    
return false;
}
br.subArtc 
= function(article,worldNum){
    
var result = [];
    
/*首先截取需要的字串*/
    
var wcount = 0;
    
var startTags = [],endTags = [];
    
var isInTag = false;
    
for(var i=0,len=article.length;i<len;i++){
        
var w = article[i];
        result.push(w);
        
if(w=="<"){
            isInTag 
= true;    
        }
        
if(!isInTag){
            wcount
++;
            
if(wcount==worldNum){
                
break;    
            }
        }
        
if(w==">"){
            isInTag 
= false;    
        }
    }
    
/*对字串进行处理*/
    
var j=0;
    isInTag 
= false;
    
var isStartTag = true;
    
var tagTemp = "";
    
while(j<i){
        w 
= result[j];
        
if(isInTag){
            
if(w==">" || w==" " || w=="/"){
                isInTag 
= false;
                
if(isStartTag){
                    startTags.push(tagTemp);    
                }
else{
                    endTags.push(tagTemp);    
                }
                tagTemp 
= "";
            }
            
if(isInTag){
                tagTemp
+=w;    
            }
        }
        
if(w=="<"){
            isInTag 
= true;
            
if(result[j+1]=="/"){
                isStartTag 
= false;
                j
++;
            }
else{
                isStartTag 
= true;    
            }
        }
        j
++;
    }
    
/*剔除img,br等不需要成对出现的标记*/
    
var newStartTags = [];
    
for(var x=0,len=startTags.length;x<len;x++){
        
if(!br.contain(br.spTags,startTags[x])){
            newStartTags.push(startTags[x]);
        }
    }
    
/*添加没有的结束标记*/
    
var unEndTagsCount = newStartTags.length - endTags.length;
    
while(unEndTagsCount>0){
        result.push(
"<");
        result.push(
"/")
        result.push(newStartTags[unEndTagsCount
-1]);
        result.push(
">");
        unEndTagsCount
--;
    }
    
return result.join("");
};

 

 基本思路:

1.绕过标记,取得实际内容字数 ,如需要显示内容前100个字,绕过标记检索,得到第一百个字实际的索引。然后截取此索引前面的字串。

2.根据一得到的字串,得到这个字串中存在的开始标记和结束标记。注:此处的开始标记标识以"<"开通,且下一个字符不为"/"。

3.剔除2中 得到的开始标记中的不需要成对出现的标记。如br,img,hr等。

4.对比经过3处理的开始标记和2中得到的结束标记,没有配成对的在合适的位置为其配对。