流世幻羽

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2019年8月7日

摘要: Jsoup 我们抓取到页面之后,还需要对页面进行解析。可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些方法都会带来很大的开发成本,所以我们需要使用一款专门解析html页面的技术。 1.1. jsoup介绍 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML 阅读全文
posted @ 2019-08-07 14:35 流世幻羽 阅读(1452) 评论(0) 推荐(0) 编辑

摘要: 网络爬虫 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 网络爬虫介绍 在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。如何自动高效地获取互联网中我们感兴趣的信息并为我们所 阅读全文
posted @ 2019-08-07 11:59 流世幻羽 阅读(205) 评论(0) 推荐(0) 编辑