python:使用OO和工厂模式解决问题

上次说到，用DOM树的方法替代正则表达式，去匹配替换具有特定属性值的HTML标签，第一次选用的是BeautifulSoup,但是领导更中意lxml这个库，因此我把代码抽取出来抽象成一个接口，让代码依赖接口，而不是具体的实现，代码并不知道我到底使用的是什么第三方库，后来更增加一个工厂方法，让外部连我用的什么类都不让它知道：）

#!/usr/bin/env python
# -*- coding: utf-8 -*-

#工厂模式
def createDomTree(htmlStream,type='soup'):
    if type == "soup":
        return tnDomTreeWithSoup(htmlStream)
    
    if type == "lxml":
        return tnDomTreeWithlXml(htmlStream)
    
    return None
    
#外部依赖的接口，它屏蔽了我具体使用的第三方库
class tnDomTree:
    def __init__(self,htmlStream):
        self.htmlStream = htmlStream
    
    def getLinkList(self):
        pass
    
    def getImageList(self):
        pass
    
    def elementToString(self,element):
        pass
    
    def getAttrValueOfElement(self,element,attName):
        pass

#使用BeautifulSoup的类
from BeautifulSoup import BeautifulSoup
class tnDomTreeWithSoup(tnDomTree):
    def __init__(self,htmlStream):
        tnDomTree.__init__(self,htmlStream)
        self._tree = BeautifulSoup(self.htmlStream)
    
    def getLinkList(self):
        return self._tree.findAll('a')
    
    def getImageList(self):
        return self._tree.findAll('img')
    
    def elementToString(self,element):
        return str(element)
    
    def getAttrValueOfElement(self,element,attName):
        if hasattr(element,attName):
            return str(element[attName])
        else:
            return ""

#使用lxml
from lxml.html import tostring
from lxml.html.soupparser import fromstring
class tnDomTreeWithlXml(tnDomTree):
    def __init__(self,htmlStream):
        tnDomTree.__init__(self,htmlStream)
        self._tree = fromstring(self.htmlStream)
    
    def getLinkList(self):
        list = []
        for i in self._tree.iter():
            if i.tag == 'a':
                list.append(i)
        return list
    
    def getImageList(self):
        list = []
        for i in self._tree.iter():
            if i.tag == 'img':
                list.append(i)
        return list
    
    def elementToString(self,element):
        return tostring(element)
    
    def getAttrValueOfElement(self,element,attName):
        if attName in set(element.keys()):
            return str(element.attrib[attName])
        else:
            return ""

if __name__ == "__main__":
    s1 = '''
    <p>BEIAI</p> <p><img src="/attachment/28" alt=""></p>
    '''
    print s1
    domtree = createDomTree(s1,'soup')
    list = domtree.getImageList()
    for i in list:
        print domtree.getAttrValueOfElement(i,'src')
        print domtree.elementToString(i)

后来发现一个问题，lxml库的tostring方法总是<img src="..." />转换成<img src="...">这个不符合我的设计要求，我的设计思路是，在DOM上遍历img节点，将有特定src值的节点放入list，遍历list将每一个元素都抓换成其原始HTML代码。整体替换之，由于它tostring时擅自修改了HTML源码导致务替换的时候没有匹配的目标字符串，从而产生BUG，所以后来还是决定使用BeautifulSoup，因为抽象出接口了，所以改变使用的第三方库对于程序来说特别容易：）

PS：BeautifulSoup也并非没有问题，它的策略与lxml刚好相反，任何单个的<img>标签，只要没加/它都生成<img ... />这样的标签，但是因为我能保证我要处理的<img>一定是有/的，反而不是问题了，何况加/是标准的写法，因此还是选择它了，由此强化了之前的观点：第三方库也会不稳定不安全，但是我们仅仅使用它们稳定的功能和模块就可以了

posted on 2012-04-09 18:32 codestyle 阅读(569) 评论(0) 收藏举报

刷新页面返回顶部

技术宅，fat-man

导航

公告

python:使用OO和工厂模式解决问题