摘要:
写了一个小程序抓取到了百度新闻首页的源码。接下来要获取新闻页网址。 分析发现,网址大多嵌在<li>标签里的<a>标签中。首先通过正则表达获取<li>标签。 运行效果:<li>标签及其子标签全部匹配 阅读全文
摘要:
一、正则表达式 一个正则表达式是含有一些具有特殊意义字符的字符串,这些字符称作正则表达式中的元字符。例如“\\dcat”中的\\d就是具有特殊意义的元字符,代表0到9中的任何一个字符。 表1 元字符 . \d \D \s \S \w \W \p{punct} . \\d \\D \\s \\S \\ 阅读全文