webMagic学习笔记 主页
webMagic学习笔记 主页
csdn的WebMagic栏目
黄亿华-- webMagic创始人博客
学习第一天:webMagic入门案例,启动流程,及从页面中获取元素,并放到Page对象中,并成功拿出
模拟登陆二:
webmagic爬虫自学(六)网络爬虫模拟登陆[策略二:通过Selenium模拟表单提交]
原创:搭建用Selenium模拟chrome浏览器运行环境,为模拟登陆做准备
使用selenium webdriver实现自动登录CSDN
长亭外 古道边 芳草天(964849768) 2020-03-27 17:31:33
有没有知道webmagic怎么向processor传递参数的
webmagic 群主(576140241) 2020-03-27 17:41:16
Request request = new Request();
request.setExtras(extras);
page.getRequest().getExtras();
需要研究,学习如上
正则表达式:
webMagic正则表达式
1:找www.sqrcw.com/job 下边的详细招聘页面
//找出所有链接下详细招聘格式网址 http://sqrcw.com/zhaopin/job_233460.html
List<String> linkDetails =page.getHtml().links().regex("(^http://sqrcw.com\\/zhaopin\\/job_\\d*\\.html)").all();
for (String linkDetail:
linkDetails) {
System.out.println(linkDetail);
}
System.out.println("详细页面总共:"+linkDetails.size());
//找出所有链接下详细招聘格式网址 http://sqrcw.com/zhaopin/job_233460.html,不过上边更简介
List<String> urltargets=page.getHtml().css("div.seaList ul li.li11 span.s1 a","href").regex(".*/zhaopin/job_.*.html").all();
2:爬虫的相对路径转绝对路径
@SuppressWarnings("finally") public static String getAbsoluteURL(String baseURI, String relativePath){ String abURL=null; try { URI base=new URI(baseURI);//基本网页URI URI abs=base.resolve(relativePath);//解析于上述网页的相对URL,得到绝对URI URL absURL=abs.toURL();//转成URL System.out.println(absURL); abURL = absURL.toString(); } catch (MalformedURLException e) { e.printStackTrace(); } catch (URISyntaxException e) { e.printStackTrace(); } finally{ return abURL; } }
做产品的程序,才是好的程序员!