爬虫获取公告类内容通用式正则
detail = response.xpath('//div[@class="meetingDetailBox"]').extract()[0] 正文
匹配所有汉字
summary=re.sub(r'<style.*?</style>|<.*?>|begin-->|end-->|\r|\n|\t|\xa0','', detail, flags=re.S)
匹配所有url图片
img_url=re.findall(r'<img.*?src="(.*?)".*?>',detail)
附件
file_doc=re.findall(r'<a href="/module/download.*?".*?>.*?</a>',detail)
匹配汉字补充写法
summary=re.sub(r'<style.*?</style>|<.*?>| | ','',detail,flags=re.S)[:300]
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步