有趣的Node爬虫，数据导出成Excel

　　最近一直没更新了诶，因为学习Backbone好头痛，别问我为什么不继续AngularJs~因为2.0要出来了啊，妈蛋！好，言归正传，最近帮我的好基友扒数据，他说要一些股票债券的数据。我一听，那不就是要做爬虫了么...果断用Node做！（其实也有一个股票数据API，sina提供的，但是由于不适用于债券，没办法，只好自己动手丰衣足食了）

　　工欲善其事，必先利其器嘛，蓬勃的Node社区提供了非常多的好的工具，下面我列出将要使用的工具：

request，封装了Node的原生的http模块，使API更加简洁明了。
cheerio，简化的jQuery库，可以让你操作DOM事半功倍。
node-xlsx，Node平台上非常好用的读写xlsx的插件。
fs，Node自带的文件操作的模块

　　这次，因为是一个入门教程，涉及到的东西当然也就不多。比如对时间格式化的moment插件，还有对傻（哔！）的GBK和gb2312编码解码的插件iconv-lite，这些都是非常好的东西，可以帮助大家更快更舒服的构建自己所需要的东西。所以就要求如何更快的学习阅读API。（当然英文要好啊擦！）

　　首先就是通过npm加载node_modules，你可以一个个加载(npm install request)，也可以在npm的package.json里的dependencies一次性npm install加载。相信大家都已经耳熟能详啦，就不再赘述啦！（不知道的赶紧去补啊擦）

　　然后我们的爬虫之旅就开始了，首先，当然就是各种require。

　　然后指定一个URL，供request去发送请求。就像下面一样，这是一个异步的函数，回调函数的三个参数当然很好理解啦。

　　重点是在body上，body是将整个url的html文档解析并存入body中。如果用http.on("data")，可麻烦啦。这下可好，已经帮你封装妥当。当我们有一个DOM文档，最想干的事情当然就是，操作DOM啊！这时cheerio就派上场了，它可以像jQuery一般操作文档。我们来看一下，怎么做的。

　　是不是十分的简单易懂呢，之后我们就可以对body尽情的揉捏了。通过jQuery的选择器，获取特定的DOM上的值，然后保存起来。最后来说一说，如何将保存后的值，转化成一个Excel表格，也就是xlsx格式的文件。

　　node-xlsx是通过操作一个数组，然后数组里面通过不同的对象来指定Excel的sheets，然后对象里面有各种属性，如data属性和name属性，一个是放数据的，一个是指定sheets的名称的，若不填则默认为Sheet。若存在多个同名Sheet，则会使用后一个，所以name属性，没事就加上吧~。data属性是精华，通过二维数组来确定行列。光说无益，来看一下代码。

　　当把数据准备妥当后，便是通过fs模块的 writeFileSync 写入文件，参数分别为（文件名，文件数据，options选项）。最后node一执行，就可以导出文件了。可以查看一下成果。

　　嗯，妥妥的！

　　当然国内大部分坑爹的gb2312，就没那么简单咯。这里留个坑~~因为我在buffer这一块，也没弄懂~~。

posted @ 2015-01-29 22:56 Yika丶J 阅读(3737) 评论(4) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

公告

腾讯前端工程师

昵称： Yika丶J
园龄： 10年6个月
粉丝： 91
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

Yika丶J

探寻如何优雅的做一名FE

有趣的Node爬虫，数据导出成Excel

公告

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论