2014年11月14日

node爬虫

摘要: 以上是简单的爬虫,采用superagent获取html,用cheerio处理html,然后采用jquery的方式获取元素。 阅读全文
posted @ 2014-11-14 19:13 j.w 阅读(374) 评论(0) 推荐(0) 编辑

cheerio笔记

摘要: 不会的东西,再简单都是难;会的东西,再难都是简单。给自己写的,写的通俗易懂。cheerio:在node服务端,解析网页,是jquery的核心,去除了DOM中不一致的地方。先获得网页的源码,再通过cheerio解析,可以迅速提出想要的字段。获得源码有点麻烦。Load://使用的html字段 App... 阅读全文
posted @ 2014-11-14 18:15 j.w 阅读(812) 评论(0) 推荐(0) 编辑