用正则表达式提取网页表格中的内容

# 1 将 <td ....> 转化为<td>
# (?i) 表示不区分大小写
a = re.compile("(?i)[\<]td.*?[\>]" )
s=a.sub("<td>",s)

#2 将 </td ....> 转化为</td>
a = re.compile("(?i)[\<]td.*?[\>]" )
s=a.sub("<td>",s)

#3 提取介于<td> 与 </td> 之间的内容
# --- (?<=<td>).*?(?=</td>)的说明 ----
# (?<=<td>)表示以<td>开始,但不提取<td>
# (?=</td>)表示以</td>结束,但不提取</td>

a=re.compile("(?i)(?<=<td>).*?(?=</td>)")
c = [x.group() for x in a.finditer(s) ]
print(c)

#4 C数组中存的是每一个"格" 的内容,它可带有其他的标记
# 把C中每个元素中介于"<" 和 ">" 之间(含< >)删除.

# [\<].*?[\>] 表示以<开始,以>结束的字符序列中间有任意非">"字符

# 也可以写作 [\<][^\>]*?[\>]

print ( "把C中每个元素中介于'<' 和 '>' 之间(含< >)的字符删除后:")
a=re.compile("(?i)[\<].*?[\>]")
for i in range(0,len(c)):
c[i] = a.sub("",c[i] )
print ( c )

posted on 2011-08-12 17:02 alexmen 阅读(4025) 评论(0) 收藏举报

刷新页面返回顶部

alexmen

公告