【腾讯云】云产品限时秒杀,爆款1核2G云服务器,首年99元

正则留档

1.时间

\d{4}-\d{2}-\d{2} -\d{2}:\d{2}:\d{2}

2. 路径

log==> (C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\\\)+([1-9a-zA-Z].*)+\.txt+$

3. 数字结尾

log==> \d{2}+$ 

4.综合

\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2}  log==> C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\+([A-Za-z1-9].*)+\.txt+$

5.去除<>以及其中间的内容

<([^>]*)>

6.去除特殊标签

#去除注释
result = re.sub('(<\!\-\-)[\\s\\S]*?(\-\->)',"",context)
#去除js
result = re.sub('(<script)[\\s\\S]*?(<\/script>)',"",result)
#去除css
result = re.sub('(<style)[\\s\\S]*?(<\/style>)',"",result)
#去除HTML标签
result = re.sub('<[^>]*>',"",result)

 

匹配表格: /tr><tr[^>]*?>[\\S\\s]*?<td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td>[\\S\\s]*?<

posted @ 2018-07-09 17:06  happenzh  阅读(147)  评论(0编辑  收藏  举报