学习服务端JavaScript这个有名的Node.js

没接触过,试着简单学一下,从头开始;

参照这个教程:https://github.com/alsotang/node-lessons/tree/master/lesson0

一、搭建环境:

      1、搭建Node.js环境好像大部分是基于linux系统的,windows系统好像不受欢迎,没办法,就在windows上面装一个centos系统;

      2、安装nvm (Node Version Manager) ; 按上面的教程,输入命令后如图所示:(应该要重启下终端)

          

       3、安装Node.js; 重启终端,也按照教程安装0.12这个版本;

         

     正在安装......有进度显示;我去 卡到了82.1%,有五分钟了!只好重启终端,继续下载完成了;(卡的时候要重启?)

           

  4、安装完成,启动node; 试了试,好像要先输入nvm use 0.12 命令;原来是没有运行$ nvm alias default 0.12 这个命令;

            设置了默认值后:    

       

 

  二、一个最简单的例子:

       1、首先需要用npm(Node Package Manager) 安装一个框架Express;  不懂,先按照教程来:

            http://registry.cnpmjs.org 这个地址被内网禁了,报网络错误。所以换一个试试 http://registry.cnpmjs.org;果然可以!

            

      2、开始写js代码,实现一个服务器,端口3000,访问地址http://localhost:3000

// 这句的意思就是引入 `express` 模块,并将它赋予 `express` 这个变量等待使用。
var express = require('express');
// 调用 express 实例,它是一个函数,不带参数调用时,会返回一个 express 实例,将这个变量赋予 app 变量。
var app = express();

// app 本身有很多方法,其中包括最常用的 get、post、put/patch、delete,在这里我们调用其中的 get 方法,为我们的 `/` 路径指定一个 handler 函数。
// 这个 handler 函数会接收 req 和 res 两个对象,他们分别是请求的 request 和 response。
// request 中包含了浏览器传来的各种信息,比如 query 啊,body 啊,headers 啊之类的,都可以通过 req 对象访问到。
// res 对象,我们一般不从里面取信息,而是通过它来定制我们向浏览器输出的信息,比如 header 信息,比如想要向浏览器输出的内容。这里我们调用了它的 #send 方法,向浏览器输出一个字符串。
app.get('/', function (req, res) { 

  //当有参数时  http://localhost:3000/?q=niu 用如下代码获取;

  //var param = req.query.q;

  //if(param==null || param == 'undefined'){
  //res.send('why no params,go put one;');
  //}
  //res.send('Hello '+param);


  res.send('Hello World');
});

// 定义好我们 app 的行为之后,让它监听本地的 3000 端口。这里的第二个函数是个回调函数,会在 listen 动作成功后执行,我们这里执行了一个命令行输出操作,告诉我们监听动作已完成。
app.listen(3000, function () {
  console.log('app is listening at port 3000');
});
// 引入依赖
var express = require('express');
var superagent = require('superagent');
var cheerio = require('cheerio');
// 建立 express 实例
var app = express();

app.get('/', function (req, res) {
   
  // 用 superagent 去抓取 http://www.cnblogs.com/的内容
  superagent.get('http://www.cnblogs.com/')
    .end(function (err, sres) {
      // 常规的错误处理
      if (err) {
        return next(err);
      }
      // sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
      // 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
      // 剩下就都是 jquery 的内容了
      var $ = cheerio.load(sres.text);
      var items = [];
      $('.titlelnk').each(function (idx, element) {
        var $element = $(element);
        items.push({
          title: $element.text(),
          href: $element.attr('href')
        });
      });
      $('.lightblue').each(function (idx, element) {
        var $element = $(element);
        items[idx].author = $element.text();
      });

      res.send(items);
    });

});

app.listen(3000, function (req, res) {
  console.log('app is running at port 3000');
});
爬cnblogs.com的文章标题

 

使用node app.js 命令执行成功了:  

     

三、尝试网络爬虫,听说很*:这次要写到详细一些:

     1、新建文件夹并打开: mkdir nodesprider && cd nodesprider

     2、实例化项目建立package.json: npm init 生成package.json;

     3、安装三个依赖并配置信息到package.json中: npm install express superagent cheerio --save  默认从官网下载依赖;

           express ( http://expressjs.com/)是 Node.js 应用最广泛的 web 框架,现在是 4.x 版本,它非常薄。

    superagent(http://visionmedia.github.io/superagent/ ) 是个 http 方面的库,可以发起 get 或 post 请求。

    cheerio(https://github.com/cheeriojs/cheerio ) 大家可以理解成一个 Node.js 版的 jquery,用来从网页中以 css selector 取数据,使用方式跟 jquery 一样一样的。

     4、爬虫逻辑代码:

// 引入依赖
var express = require('express');
var superagent = require('superagent');
var cheerio = require('cheerio');
// 建立 express 实例
var app = express();

app.get('/', function (req, res) {

// 用 superagent 去抓取 https://cnodejs.org/ 的内容
superagent.get('https://cnodejs.org/')
.end(function (err, sres) {
// 常规的错误处理
if (err) {
return next(err);
}
// sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
// 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
// 剩下就都是 jquery 的内容了
var $ = cheerio.load(sres.text);
var items = [];
$('#topic_list .topic_title').each(function (idx, element) {
var $element = $(element);
items.push({
title: $element.attr('title'),
href: $element.attr('href')
});
});

res.send(items);
});

});

app.listen(3000, function (req, res) {
console.log('app is running at port 3000');
});

     5、执行app.js : node app.js ;访问:http://localhost:3000/; 浏览器输出信息!成功了

 

posted @ 2016-10-13 18:00  凉城  阅读(220)  评论(0编辑  收藏  举报