大数据笔记
1. 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景
a) Hadoop
基于分布式文件系统HDFS的分布式批处理计算框架。适用于数据量大,SPMD(单程序多数据)的应用。
b) Spark
基于内存计算的并行计算框架。适用于需要迭代多轮计算的应用。
c) MPI(Message Passing Interface)
基于消息传递的并行计算框架。适用各种复杂应用的并行计算。支持MPMD( 多程序多数据) ,开发复杂度高
2.请解释tcp连接建立过程,如果可能,请结合相应系统调用函数解释交互过程。
第一次握手:建立连接时,客户端调用发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认;
第二次握手:服务器端收到syn包,必须确认客户的SYN(ack=j+1),同时自己也发送一个SYN包(syn=k),即SYN+ACK包,此时服务器进入SYN_RECV状态;
第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=k+1),此包发送完毕,客户端和服务器进入ESTABLISHED状态,完成三次握手。
状态图如下:
相关系统调用:client端调用connect()开始建立连接,连接建立好后退出
服务器端调用完listen()后就可以响应连接请求,连接请求建立好后调用accept()把连接拿出开始通信
注意:accept()跟server建立连接没有关系,它只是取出建立好连接的socket,不参与连接建立的过程。
完成三次握手,客户端与服务器开始传送数据;
3.给定一个整数的数组,相邻的数不能同时选,求从该数组选取若干整数,使得他们的和最大,要求只能使用o(1)的空间复杂度。要求给出伪码。
int getMax(int a[],int len)
{
int max1 = a[0];//表示maxSum(n-2);
int max2 = a[0]>a[1]? a[0]:a[1]; //表示maxSum(n-1);
int max3 = 0; // n
for(int i =2; i<len; i++){
max3 = Max(a[i],Max(max1+a[i],max2));
// max3 = a[i]+max1> max2 ? a[i]+max1:max2; // 全部是负数也需要考虑的,这个没有
max1 = max2;
max2 = max3;
}
return max3;
}
int Max(int a,int b){
if(a>b)
return a;else
return b;
}