BeautifulSoup获取xml多层标签的内容
file_name = r'C:/Users/HZJT0040/Desktop/Daliymed/410/2fbaadf6-c86c-48bb-bbba-803377841733.xml' with open(file_name, 'r', encoding='utf-8') as f: # 读取xml文本 html = f.read() pattern = re.compile('<structuredBody>(.*?)</structuredBody>',re.S) # 正则匹配指定的标签内容 page_data = re.findall(pattern, html)[0] try: soup = BeautifulSoup(page_data, 'lxml') result = soup.component.find_next_siblings() # find_next_siblings () 方法返回所有符合条件的后面的兄弟节点 print(len(result)) for i,ul in enumerate(result[1:]): # 获取外层标签指定的内容text result = ul.text.replace("\t", "").replace("\xa0", "").strip() # resultList = result.split('\n') for del_str in resultList: if del_str: print(del_str.replace("\n", "")) except Exception as e: print(e)
分类:
python
, BeautifulSoup
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现