摘要: 发现对于QQ群 空间文件的抓取毫无办法。 QQ空间的代码可圈可点: 做了一个js的“客户端”,第一次加载时,将文件的列表信息全部抓取出来,然后基于js进行翻页和排序。 因此,想要抓取js渲染的dom,是不可能的,此处只能用js或者jq来操作了。 对于这种情况,得用js写“爬虫”逻辑。 附上qq空间群 阅读全文
posted @ 2014-10-07 20:27 tommy.yu 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 偶然下载一种类型的资源,发现好多翻页,右键另存什么的,不胜其烦。 决定用python写几句代码搞定。核心代码如下: 至于url,简单的用爬虫的思路得到的。非本文的重点,不再啰嗦。 问题来了,不知道为什么,下载的所有文件都是42k! 百思不得其解,应该是某种限制,脑袋不灵光,想了半天才想到,应该是防盗 阅读全文
posted @ 2014-10-07 17:47 tommy.yu 阅读(922) 评论(0) 推荐(1) 编辑