正则留档
1.时间
\d{4}-\d{2}-\d{2} -\d{2}:\d{2}:\d{2}
2. 路径
log==> (C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\\\)+([1-9a-zA-Z].*)+\.txt+$
3. 数字结尾
log==> \d{2}+$
4.综合
\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2} log==> C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\+([A-Za-z1-9].*)+\.txt+$
5.去除<>以及其中间的内容
<([^>]*)>
6.去除特殊标签
#去除注释 result = re.sub('(<\!\-\-)[\\s\\S]*?(\-\->)',"",context) #去除js result = re.sub('(<script)[\\s\\S]*?(<\/script>)',"",result) #去除css result = re.sub('(<style)[\\s\\S]*?(<\/style>)',"",result) #去除HTML标签 result = re.sub('<[^>]*>',"",result)
匹配表格: /tr><tr[^>]*?>[\\S\\s]*?<td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td>[\\S\\s]*?<