webmagic 爬虫

一 :

webmagic+Selenium爬取动态页面

(1*)https://blog.csdn.net/panchang199266/article/details/85413746

(2)这个不怎么用 https://blog.csdn.net/qixinbruce/article/details/71105444?utm_source=blogxgwz8

 

(3*) https://blog.csdn.net/weixin_43719622/article/details/102784141

(4*) https://github.com/Yangtze-Innovation/Search-Job-Platfom/tree/CourageHe/2-WebMagic/4-WebMagicSelenimu

 

 

webmagic 的一些说明:

(1 不太用看) https://www.jianshu.com/p/3015e46cdb42

(2 xsoup 说明) https://github.com/code4craft/xsoup/tree/master

地理服务器网址

米扑代理 https://proxy.mimvp.com/freeopen

西刺代理  https://www.xicidaili.com/      站大爷  https://www.zdaye.com/dayProxy/ip/319322.html

 

Java: httpclient 设置代理 https://blog.csdn.net/q1099568207/article/details/93192071      (2) https://www.cnblogs.com/chongyou/p/7808035.html

(3)https://blog.csdn.net/coqcnbkggnscf062/article/details/79565853

webmagic 设置代理 https://www.cnblogs.com/itsoku123/p/10755529.html

webmagic的xpath中last()函数无法使用?

使用爬虫的时候,执行以下语句: page.getHtml().xpath("//div[@id='pager']/a[last()]").links().all()

报错如下:

org.jsoup.select.Selector$SelectorParseException: Could not parse query 'a[last()]': unexpected token at 'last()'

答:

目前应该是不支持last()函数。

参考链接如下:

xpath 文档

https://www.cnblogs.com/songzhenhua/p/10260945.html

(2) https://www.jianshu.com/p/820dcd013993

(3)https://www.runoob.com/xpath/xpath-syntax.html

jsonpath语法  

 用webmagic 爬虫框架 有些解析的内容就是一个json字符串 需要用到的就是jsonpath类似于xpath

https://blog.csdn.net/weixin_37794119/article/details/81484885

 

 

扩展项目: https://www.cnblogs.com/vcmq/p/9484404.html

posted @ 2020-02-25 14:39  Samuel-Leung  阅读(453)  评论(0编辑  收藏  举报