webmagic 爬虫

一：

webmagic+Selenium爬取动态页面

（1*）https://blog.csdn.net/panchang199266/article/details/85413746

（2）这个不怎么用 https://blog.csdn.net/qixinbruce/article/details/71105444?utm_source=blogxgwz8

（3*） https://blog.csdn.net/weixin_43719622/article/details/102784141

（4*） https://github.com/Yangtze-Innovation/Search-Job-Platfom/tree/CourageHe/2-WebMagic/4-WebMagicSelenimu

webmagic 的一些说明:

(1 不太用看) https://www.jianshu.com/p/3015e46cdb42

（2 xsoup 说明） https://github.com/code4craft/xsoup/tree/master

地理服务器网址

米扑代理 https://proxy.mimvp.com/freeopen

西刺代理 https://www.xicidaili.com/ 站大爷 https://www.zdaye.com/dayProxy/ip/319322.html

Java: httpclient 设置代理 https://blog.csdn.net/q1099568207/article/details/93192071 （2） https://www.cnblogs.com/chongyou/p/7808035.html

（3）https://blog.csdn.net/coqcnbkggnscf062/article/details/79565853

webmagic 设置代理 https://www.cnblogs.com/itsoku123/p/10755529.html

webmagic的xpath中last()函数无法使用？

使用爬虫的时候，执行以下语句： page.getHtml().xpath("//div[@id='pager']/a[last()]").links().all()

报错如下：

org.jsoup.select.Selector$SelectorParseException: Could not parse query 'a[last()]': unexpected token at 'last()'

答：

目前应该是不支持last()函数。

参考链接如下：

xpath 文档

https://www.cnblogs.com/songzhenhua/p/10260945.html

（2） https://www.jianshu.com/p/820dcd013993

（3）https://www.runoob.com/xpath/xpath-syntax.html

jsonpath语法

用webmagic 爬虫框架有些解析的内容就是一个json字符串需要用到的就是jsonpath类似于xpath

https://blog.csdn.net/weixin_37794119/article/details/81484885

扩展项目: https://www.cnblogs.com/vcmq/p/9484404.html

posted @ 2020-02-25 14:39 Samuel-Leung 阅读(453) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部