内容采集
爬虫:用于搜索,但搜索的内容还在原来的网站上,主动,智能
采集:把别的网站的内容,放到自己网站上
网站首页相当于入口,入口下有很多一级分类,和首页是上下级的关系。分类是有层级关系的
网站的内容架构:
先确定抓取范围:先分析网站内容结构;eg:抓全栈的数据--那就以网站首页作为入口
网站内容架构:首页下是一级分类,一级分类下是二级分类
内容抓取流程:
入口是个列表页,
用java程序解析,先得拿到页面的html代码
想要抓取数据,得先分析url有何规律
关于提取:HTML解析类库:jsoup和jodd
1,jsoup
前提条件:没有任何第三方类库来自动帮助我来做这件事,用纯java系统类库来做?