摘要: jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容, 就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。 虽然jsoup也支持从某个地址直接去爬取网 阅读全文
posted @ 2017-07-27 21:22 Ouka傅 阅读(7530) 评论(0) 推荐(0) 编辑
摘要: 我们知道,正则表达式可以大大的提高我们的工作效率。 在了解正则表达式之前,我们需要了解,通配符的概念。 在linux中,我们在使用ls这个命令的时候经常会使用下面这种用法 可以注意到,我们这里使用了*来代替各种字符的意思。 但是这并不是正则表达式。 在linux中,有很多的命令,如果这些命令支持正则 阅读全文
posted @ 2017-07-27 14:24 Ouka傅 阅读(2167) 评论(0) 推荐(0) 编辑