python:使用OO和工厂模式解决问题
上次说到,用DOM树的方法替代正则表达式,去匹配替换具有特定属性值的HTML标签,第一次选用的是BeautifulSoup,但是领导更中意lxml这个库,因此我把代码抽取出来抽象成一个接口,让代码依赖接口,而不是具体的实现,代码并不知道我到底使用的是什么第三方库,后来更增加一个工厂方法,让外部连我用的什么类都不让它知道:)
#!/usr/bin/env python # -*- coding: utf-8 -*- #工厂模式 def createDomTree(htmlStream,type='soup'): if type == "soup": return tnDomTreeWithSoup(htmlStream) if type == "lxml": return tnDomTreeWithlXml(htmlStream) return None #外部依赖的接口,它屏蔽了我具体使用的第三方库 class tnDomTree: def __init__(self,htmlStream): self.htmlStream = htmlStream def getLinkList(self): pass def getImageList(self): pass def elementToString(self,element): pass def getAttrValueOfElement(self,element,attName): pass #使用BeautifulSoup的类 from BeautifulSoup import BeautifulSoup class tnDomTreeWithSoup(tnDomTree): def __init__(self,htmlStream): tnDomTree.__init__(self,htmlStream) self._tree = BeautifulSoup(self.htmlStream) def getLinkList(self): return self._tree.findAll('a') def getImageList(self): return self._tree.findAll('img') def elementToString(self,element): return str(element) def getAttrValueOfElement(self,element,attName): if hasattr(element,attName): return str(element[attName]) else: return "" #使用lxml from lxml.html import tostring from lxml.html.soupparser import fromstring class tnDomTreeWithlXml(tnDomTree): def __init__(self,htmlStream): tnDomTree.__init__(self,htmlStream) self._tree = fromstring(self.htmlStream) def getLinkList(self): list = [] for i in self._tree.iter(): if i.tag == 'a': list.append(i) return list def getImageList(self): list = [] for i in self._tree.iter(): if i.tag == 'img': list.append(i) return list def elementToString(self,element): return tostring(element) def getAttrValueOfElement(self,element,attName): if attName in set(element.keys()): return str(element.attrib[attName]) else: return "" if __name__ == "__main__": s1 = ''' <p>BEIAI</p> <p><img src="/attachment/28" alt=""></p> ''' print s1 domtree = createDomTree(s1,'soup') list = domtree.getImageList() for i in list: print domtree.getAttrValueOfElement(i,'src') print domtree.elementToString(i)
后来发现一个问题,lxml库的tostring方法总是<img src="..." />转换成<img src="...">这个不符合我的设计要求,我的设计思路是,在DOM上遍历img节点,将有特定src值的节点放入list,遍历list将每一个元素都抓换成其原始HTML代码。整体替换之,由于它tostring时擅自修改了HTML源码导致务替换的时候没有匹配的目标字符串,从而产生BUG,所以后来还是决定使用BeautifulSoup,因为抽象出接口了,所以改变使用的第三方库对于程序来说特别容易:)
PS:BeautifulSoup也并非没有问题,它的策略与lxml刚好相反,任何单个的<img>标签,只要没加/它都生成<img ... />这样的标签,但是因为我能保证我要处理的<img>一定是有/的,反而不是问题了,何况加/是标准的写法,因此还是选择它了,由此强化了之前的观点:第三方库也会不稳定不安全,但是我们仅仅使用它们稳定的功能和模块就可以了
分类:
Python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· .NET周刊【3月第1期 2025-03-02】
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· [AI/GPT/综述] AI Agent的设计模式综述