webMagic学习笔记 主页
webMagic学习笔记 主页
csdn的WebMagic栏目
黄亿华-- webMagic创始人博客
学习第一天:webMagic入门案例,启动流程,及从页面中获取元素,并放到Page对象中,并成功拿出
模拟登陆二:
webmagic爬虫自学(六)网络爬虫模拟登陆[策略二:通过Selenium模拟表单提交]
原创:搭建用Selenium模拟chrome浏览器运行环境,为模拟登陆做准备
使用selenium webdriver实现自动登录CSDN
长亭外 古道边 芳草天(964849768) 2020-03-27 17:31:33
有没有知道webmagic怎么向processor传递参数的
webmagic 群主(576140241) 2020-03-27 17:41:16
Request request = new Request();
request.setExtras(extras);
page.getRequest().getExtras();
需要研究,学习如上
正则表达式:
webMagic正则表达式
1:找www.sqrcw.com/job 下边的详细招聘页面
//找出所有链接下详细招聘格式网址 http://sqrcw.com/zhaopin/job_233460.html
List<String> linkDetails =page.getHtml().links().regex("(^http://sqrcw.com\\/zhaopin\\/job_\\d*\\.html)").all();
for (String linkDetail:
linkDetails) {
System.out.println(linkDetail);
}
System.out.println("详细页面总共:"+linkDetails.size());
//找出所有链接下详细招聘格式网址 http://sqrcw.com/zhaopin/job_233460.html,不过上边更简介
List<String> urltargets=page.getHtml().css("div.seaList ul li.li11 span.s1 a","href").regex(".*/zhaopin/job_.*.html").all();
2:爬虫的相对路径转绝对路径
@SuppressWarnings("finally") public static String getAbsoluteURL(String baseURI, String relativePath){ String abURL=null; try { URI base=new URI(baseURI);//基本网页URI URI abs=base.resolve(relativePath);//解析于上述网页的相对URL,得到绝对URI URL absURL=abs.toURL();//转成URL System.out.println(absURL); abURL = absURL.toString(); } catch (MalformedURLException e) { e.printStackTrace(); } catch (URISyntaxException e) { e.printStackTrace(); } finally{ return abURL; } }
做产品的程序,才是好的程序员!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!