# 1 将 <td ....> 转化为<td>
# (?i)
表示不区分大小写
a = re.compile("(?i)[\<]td.*?[\>]"
)
s=a.sub("<td>",s)
#2 将 </td ....> 转化为</td>
a
= re.compile("(?i)[\<]td.*?[\>]" )
s=a.sub("<td>",s)
#3
提取介于<td> 与 </td> 之间的内容
# ---
(?<=<td>).*?(?=</td>)的说明 ----
#
(?<=<td>)表示以<td>开始,但不提取<td>
#
(?=</td>)表示以</td>结束,但不提取</td>
a=re.compile("(?i)(?<=<td>).*?(?=</td>)")
c =
[x.group() for x in a.finditer(s) ]
print(c)
#4 C数组中存的是每一个"格" 的内容,它可带有其他的标记
#
把C中每个元素中介于"<" 和 ">" 之间(含< >)删除.
# [\<].*?[\>] 表示以<开始,以>结束的字符序列中间有任意非">"字符
# 也可以写作 [\<][^\>]*?[\>]
print ( "把C中每个元素中介于'<' 和 '>'
之间(含< >)的字符删除后:")
a=re.compile("(?i)[\<].*?[\>]")
for i in
range(0,len(c)):
c[i] = a.sub("",c[i] )
print ( c )