摘要: 写了一个小程序抓取到了百度新闻首页的源码。接下来要获取新闻页网址。 分析发现,网址大多嵌在<li>标签里的<a>标签中。首先通过正则表达获取<li>标签。 运行效果:<li>标签及其子标签全部匹配 阅读全文
posted @ 2017-12-17 14:35 我要吃冰棍 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 一、正则表达式 一个正则表达式是含有一些具有特殊意义字符的字符串,这些字符称作正则表达式中的元字符。例如“\\dcat”中的\\d就是具有特殊意义的元字符,代表0到9中的任何一个字符。 表1 元字符 . \d \D \s \S \w \W \p{punct} . \\d \\D \\s \\S \\ 阅读全文
posted @ 2017-12-17 14:06 我要吃冰棍 阅读(225) 评论(0) 推荐(0) 编辑