摘要:
最近在研究爬虫,所以用自己熟悉的node简单写了一个。 开始用的是phantomjs来获取HTML,但是看了文档之后发现很久没有维护了,所以就放弃了。 后来寻寻觅觅发现了 Puppeteer,看了下是Google开发的,所以果断上手试了试,感觉比phantom不知道高到哪里去了。 B话少说,直接贴项 阅读全文
摘要:
目标: 解决页面加载更多问题。笔记三中,我们只爬取到网页的部分信息,而点击加载更多后的页面内容是没有提取到的。开始我的想法是找到加载更多的数据接口(可参照:http://www.jianshu.com/p/3fdb6ab47aef),但是我又发现一个问题,当我打开一个订阅号页面时,找到数据接口如下图 阅读全文