大数据笔记

1. 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景

a)     Hadoop
基于分布式文件系统HDFS的分布式批处理计算框架。适用于数据量大,SPMD(单程序多数据)的应用。
b)     Spark
基于内存计算的并行计算框架。适用于需要迭代多轮计算的应用。
c)      MPI(Message Passing Interface)
基于消息传递的并行计算框架。适用各种复杂应用的并行计算。支持MPMD( 多程序多数据) ,开发复杂度高

 

2.请解释tcp连接建立过程,如果可能,请结合相应系统调用函数解释交互过程。

 

第一次握手:建立连接时,客户端调用发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认;

第二次握手:服务器端收到syn包,必须确认客户的SYN(ack=j+1),同时自己也发送一个SYN包(syn=k),即SYN+ACK包,此时服务器进入SYN_RECV状态;

第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=k+1),此包发送完毕,客户端和服务器进入ESTABLISHED状态,完成三次握手。

状态图如下:

 

相关系统调用:client端调用connect()开始建立连接,连接建立好后退出

服务器端调用完listen()后就可以响应连接请求,连接请求建立好后调用accept()把连接拿出开始通信

注意:accept()跟server建立连接没有关系,它只是取出建立好连接的socket,不参与连接建立的过程。

完成三次握手,客户端与服务器开始传送数据;

 

3.给定一个整数的数组,相邻的数不能同时选,求从该数组选取若干整数,使得他们的和最大,要求只能使用o(1)的空间复杂度。要求给出伪码。 

int getMax(int a[],int len)
{  
   int max1 = a[0];//表示maxSum(n-2);  
   int max2 = a[0]>a[1]? a[0]:a[1]; //表示maxSum(n-1);  
   int max3 = 0; // n 
   for(int i =2; i<len; i++){    
    max3 = Max(a[i],Max(max1+a[i],max2));
//       max3 = a[i]+max1> max2 ? a[i]+max1:max2;  // 全部是负数也需要考虑的,这个没有
        max1 = max2; 
        max2  = max3; 
   } 
return max3;
}

int Max(int a,int b){
if(a>b)
return a;else
return b;
}

posted @ 2017-09-05 16:23  刘帅朝  阅读(278)  评论(0编辑  收藏  举报