webMagic学习笔记 主页

webMagic学习笔记 主页

csdn的WebMagic栏目
黄亿华-- webMagic创始人博客

 学习第一天:webMagic入门案例,启动流程,及从页面中获取元素,并放到Page对象中,并成功拿出

 模拟登陆二:

webmagic爬虫自学(六)网络爬虫模拟登陆[策略二:通过Selenium模拟表单提交]

原创:搭建用Selenium模拟chrome浏览器运行环境,为模拟登陆做准备

使用selenium webdriver实现自动登录CSDN

 长亭外 古道边 芳草天(964849768) 2020-03-27 17:31:33
有没有知道webmagic怎么向processor传递参数的

webmagic 群主(576140241) 2020-03-27 17:41:16
         Request request = new Request();
         request.setExtras(extras);
         page.getRequest().getExtras();
需要研究,学习如上

 

正则表达式:

webMagic正则表达式

1:找www.sqrcw.com/job 下边的详细招聘页面

复制代码
//找出所有链接下详细招聘格式网址 http://sqrcw.com/zhaopin/job_233460.html
List<String> linkDetails =page.getHtml().links().regex("(^http://sqrcw.com\\/zhaopin\\/job_\\d*\\.html)").all();
for (String linkDetail:
linkDetails) {
System.out.println(linkDetail);
}
System.out.println("详细页面总共:"+linkDetails.size());
复制代码

 

//找出所有链接下详细招聘格式网址 http://sqrcw.com/zhaopin/job_233460.html,不过上边更简介
List<String> urltargets=page.getHtml().css("div.seaList ul li.li11 span.s1 a","href").regex(".*/zhaopin/job_.*.html").all();

 

 

2:爬虫的相对路径转绝对路径

复制代码
@SuppressWarnings("finally")
public static String getAbsoluteURL(String baseURI, String relativePath){
    String abURL=null;
    try {
        URI base=new URI(baseURI);//基本网页URI
        URI abs=base.resolve(relativePath);//解析于上述网页的相对URL,得到绝对URI
        URL absURL=abs.toURL();//转成URL
        System.out.println(absURL);
        abURL = absURL.toString();
    } catch (MalformedURLException e) {
        e.printStackTrace();
    } catch (URISyntaxException e) {
        e.printStackTrace();
    } finally{
        return abURL;
    }
}
复制代码

 

posted @   码哥之旅  阅读(458)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示