(转)笔试题:海量数据查询排序-数据结构

关键字: work

1、请定义一个宏,比较两个数ab的大小,不能使用大于、小于、if语句
2
、如何输出源文件的标题和目前执行行的行数
3
、两个数相乘,小数点后位数没有限制,请写一个高精度算法
4
、写一个病毒
5
、有ABCD四个人,要在夜里过一座桥。他们通过这座桥分别需要耗时12510分钟,只有一支手电,并且同时最多只能两个人一起过桥。请问,如何安排,能够在17分钟内这四个人都过桥?

2008
年腾讯招聘
选择题(60) 
c/c++ os linux
方面的基础知识cSizeof函数有好几个
程序填空(40) 
1.(20) 4
x5 
不使用额外空间,A,B两链表的元素交叉归并
2.(20) 4
x5 
MFC
将树序列化 转存在数组或 链表中



1,
计算a^b << 2 (运算符优先级问题
先移位再相与。
2
根据先序中序求后序

3 a[3][4]
哪个不能表示a[1][1]: *(&a[0][0])  *(*(a+1)+1) *(&a[1]+1)  *(&a[0][0]+4)?
*(&a[0][0])

4 for(int i...) 
for(int j...) 
printf(i,j); 
printf(j) 
会出现什么问题  

定义的ij不在范围内

5 for(i=0;i<10;++i,sum+=i);
的运行结果 55

6 10个数顺序插入查找二叉树,元素62的比较次数

7 10
个数放入模10hash链表,最大长度是多少

8 fun((exp1,exp2),(exp3,exp4,exp5))
有几个实参

形参和实参有以下显著的区别:
1、形参不能离开方法。形参只有在方法内才会发生作用,也只有在方法中使用,不会在方法外可见。而实参可以再程序的任何地方都使用。
2、形参代表一个合集,具有不确定性,而形参代表一个独立事物,具有确定性(即使是为null)。也就是说,形参不能代表具体的对象,只能代表这些对象共同的属性(比如超类、各种其他自定义属性等等),而实参则是具体的对象(比如超类的实例)。
3、形参的值在调用时根据调用者更改,实参则用自身的值更改形参的值(指针、引用皆在此列)、

用通俗的话来说,形参告诉你什么样的东西才能用它,就好像一个声明、公告或者通则;而实参则是告诉你我在用它,就像一个实干家
实参是5个 形参是两个

9希尔 冒泡 快速 插入 哪个平均速度最快

10
二分查找是 顺序存储 链存储 按value有序中的哪些????

11
顺序查找的平均时间

12 *p=NULL *p=new char[100] sizeof(p)
各为多少100

13
频繁的插入删除操作使用什么结构比较合适,链表还是数组

14 enum
的声明方式

/*********************************************
*枚举
格式:
enum <枚举类型名> {<枚举表>}; (见例1)
enum {<枚举表>}<变量名表>; (见例2)

第一个枚举值对应着一个整型数,通常情况下,第一个枚
举值对应着常量值0,后面低次.(特殊用法参考 例3 例4)

enum bool {false,true}; //bool类型就是C++预定义的枚举
*********************************************/
#include <iostream.h>

void main()
...{
//例1
enum day...{Sun,Mon,Tue,Wed,Thu,Fri,Sat};//定义一个day的枚举
day d = Sun; //d只能等于"Sun,Mon,Tue,Wed,Thu,Fri,Sat"中的一个,没有其它值!
cout<<"value is "<<d<<endl;

//也可以定义多个变量
enum day...{Sun,Mon,Tue,Wed,Thu,Fri,Sat};
day d1,d2,d3;
d1 = Thu; d2 = Sat; d3 = Tue;
cout<<"d1 && d2 && d3 "<<d1<<" "<<d2<<" "<<d3<<endl;

//例2
enum ...{Sun,Mon,Tue,Wed,Thu,Fri,Sat} d;
d = Mon;
cout<<"value is "<<d<<endl;

//例3
enum ...{Sun=10,Mon,Tue,Wed,Thu,Fri,Sat} d1,d2,d3,d4;
d1 = Sun; d2 = Mon; d3 = Tue; d4 = Wed;
cout<<d1<<" "<<d2<<" "<<d3<<" "<<d4<<endl; //输出 10 11 12 13

//例4
enum ...{Sun=10,Mon=1,Tue,Wed,Thu,Fri,Sat} d1,d2,d3,d4;
d1 = Sun; d2 = Mon; d3 = Tue; d4 = Wed;
cout<<d1<<" "<<d2<<" "<<d3<<" "<<d4<<endl; //输出 10 1 2 3

15 1-20
的两个数把和告诉A,积告诉BA说不知道是多少,

B
也说不知道,这时A说我知道了,B接着说我也知道了,问这两个数是多少
2*3=6,2+3=5

大题:

1
把字符串转换为小写,不成功返回NULL,成功返回新串

char* toLower(char* sSrcStr) 

char* sDest= NULL; 
if( __
sDest!=NULL__) 

int j; 
sLen = strlen(sSrcStr); 
sDest = new [_____char[
sLen]_______]; 
if(*sDest == NULL) 
return NULL; 
sDest[sLen] = '\0'; 
while(
*sDest[i++]>97???
sDest[sLen] = toLowerChar(sSrcStr[sLen]); 

return sDest; 


2
把字符串转换为整数 例如:"-123" -> -123 

main() 

..... 
if( *string == '-' ) 
n = ____1______; 
else 
n = num(string); 
..... 


int num(char* string) 

for(;!(*string==0);string++) 

int k; 
k = __2_____; 
j = --sLen; 
while( __3__) 
k = k * 10; 
num = num + k; 

return num; 

附加题:

1 linux
下调试core的命令,察看堆栈状态命令
2
写出socks套接字 服务端 客户端 通讯程序
3
填空补全程序,按照我的理解是添入:win32调入dll的函数名


查找函数入口的函数名 找到函数的调用形式
formView加到singledoc的声明 将singledoc加到app的声明

4
有关系s(sno,sname) c(cno,cname) sc(sno,cno,grade) 
1
问上课程"db"的学生no 
2
成绩最高的学生号
3
每科大于90分的人数


主要是c/c++、数据结构、操作系统等方面的基础知识。好像有sizeof、树等选择题。填空题是补充完整程序。附加题有写算法的、编程的、数据库sql语句查询的。还有一张开放性问题。

 

请定义一个宏,比较两个数ab的大小,不能使用大于、小于、if语句 
#define Max(a,b) ( a/b)?a:b


如何输出源文件的标题和目前执行行的行数 
int line = __LINE__; 
char *file = __FILE__; 
cout<<"file name is "<<(file)<<",line is "<<line<<endl;

 

两个数相乘,小数点后位数没有限制,请写一个高精度算法 

写一个病毒 
while (1)

{

    int *p = new int[10000000];


不使用额外空间, A,B两链表的元素交叉归并,将树序列化转存在数组或链表中 
struct st{ 
int i; 
short s; 
char c; 
}; 
sizeof(struct st); 

   char * p1; 
   void * p2; 
   int p3; 
   char p4[10]; 
   sizeof(p1...p4) =? 
4
4410 


二分查找 
快速排序 
双向链表的删除结点 


12个小球,外形相同,其中一个小球的质量与其他11个不同 
给一个天平,问如何用3次把这个小球找出来 
并且求出这个小球是比其他的轻还是重 
解答
哈哈,据说这是微软前几年的一个面试题。很经典滴啊!三次一定能求出来,而且能确定是重还是轻。 
数据结构的知识还没怎么学透,不过这个题我到是自己研究过,可以分析下。 
12个球分别编号为a1,a2,a3.......a10,a11,a12. 
第一步:将12球分开3拨,每拨4个,a1~a4第一拨,记为b1 a5~a82拨,记为b2,其余第3拨,记为b3 
第二步:将b1b2放到天平两盘上,记左盘为c1,右为c2;这时候分两中情况: 

1.c1
c2平衡,此时可以确定从a1a8都是常球;然后把c2拿空,并从c1上拿下a4,从a9a12四球里随便取三球,假设为a9a11,放到c2上。此时c1上是a1a3c2上是a9a11。从这里又分三种情况: 
     A
:天平平衡,很简单,说明没有放上去的a12就是异球,而到此步一共称了两次,所以将a12随便跟11个常球再称一次,也就是第三次,马上就可以确定a12是重还是轻; 
     B
:若c1上升,则这次称说明异球为a9a11三球中的一个,而且是比常球重。取下c1所有的球,并将a10放到c1上,将a9取下,比较a10a11(第三次称),如果平衡则说明从c2上取下的a9是偏重异球,如果不平衡,则偏向哪盘则哪盘里放的就是偏重异球; 
     C
:若c1下降,说明a9a11里有一个是偏轻异球。次种情况和B类似,所以接下来的步骤照搬B就是; 

2.c1
c2不平衡,这时候又分两种情况,c1上升和c1下降,但是不管哪种情况都能说明a9a12是常球。这步是解题的关键。也是这个题最妙的地方。 
     A
c1上升,此时不能判断异球在哪盘也不能判断是轻还是重。取下c1中的a2a4三球放一边,将c2中的a5a6放到c1上,然后将常球a9放到c2上。至此,c1上是a1a5a6c2上是a7a8a9。此时又分三中情况: 
         1
)如果平衡,说明天平上所有的球都是常球,异球在从c1上取下a2a4中。而且可以断定异球轻重。因为a5a8都是常球,而第2次称的时候c1是上升的,所以a2a4里必然有一个轻球。那么第三次称就用来从a2a4中找到轻球。这很简单,随便拿两球放到c1c2,平衡则剩余的为要找球,不平衡则哪边低则哪个为要找球; 
         2
c1仍然保持上升,则说明要么a1是要找的轻球,要么a7a8两球中有一个是重球(这步懂吧?好好想想,很简单的。因为a9是常球,而取下的a2a4肯定也是常球,还可以推出换盘放置的a5a6也是常球。所以要么a1轻,要么a7a8重)。至此,还剩一次称的机会。只需把a7a8放上两盘,平衡则说明a1是要找的偏轻异球,如果不平衡,则哪边高说明哪个是偏重异球; 
         3
)如果换球称第2次后天平平衡打破,并且c1降低了,这说明异球肯定在换过来的a5a6两求中,并且异球偏重,否则天平要么平衡要么保持c1上升。确定要找球是偏重之后,将a5a6放到两盘上称第3次根据哪边高可以判定a5a6哪个是重球; 
     B
:第1次称后c1是下降的,此时可以将c1看成c2,其实以后的步骤都同A,所以就不必要再重复叙述了。至此,不管情况如何,用且只用三次就能称出12个外观手感一模一样的小球中有质量不同于其他11球的偏常的球。而且在称的过程中可以判定其是偏轻还是偏重。 

给一个奇数阶N幻方,填入数字123...N*N,使得横竖斜方向上的和都相同 
答案
 #include<iostream>

#include<iomanip>

#include<cmath>

using namespace std;

 

int main()

{

   int n, i;

   cout << "Please input the rows and columns: ";

   cin >> n;

   int **Matr = new int *[n];//动态分配二维数组

 

   for (i = 0; i < n; ++i)     

      Matr[i] = new int[n];//动态分配二维数组

  

   //j=n/2代表首行中间数作为起点,即1所在位置

   int j = n/2, num = 1;//初始值 i=0;

   while(num != n*n+1)

   {

      //往右上角延升,若超出则用%转移到左下角     

      Matr[(i % n + n) % n][(j % n + n) % n] = num;    //斜行的长度和n是相等的,超出则转至下一斜行   

      if(num%n == 0)         

          i++;  

      else     

      {         

          i--;         

          j++;     

      }     

      num++;

   }

   for(i = 0; i < n; i++)

   {     

      for(j = 0; j < n; ++j)        

      {

          cout<<setw((int)log10(n*n)+4) << Matr[i][j];//格式控制 

      }  

      cout << endl << endl;//格式控制

   }

      for(i = 0; i < n; ++i)     

          delete[] Matr[i];

      Matr = NULL;

 

      return 0;

}

腾讯的一道面试题:(与百度相似,可惜昨天百度死在这方面了)
在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可。

 

答案
1
, 把整数分成256M段,每段可以用64位整数保存该段数据个数,256M*8 = 2G内存,先清
2
,读10G整数,把整数映射到256M段中,增加相应段的记数 
3
,扫描256M段的记数,找到中位数的段和中位数的段前面所有段的记数,可以把其他段的内存释放 
4
,因中位数段的可能整数取值已经比较小(如果是32bit整数,当然如果是64bit整数的话,可以再次分段),对每个整数做一个记数,再读一次10G整数,只读取中位数段对应的整数,并设置记数。
5
,对新的记数扫描一次,即可找到中位数。 
如果是32bit整数,读10G整数2次,扫描256M记数一次,后一次记数因数量很小,可以忽略不记 
(
设是32bit整数,按无符号整数处理 
整数分成256M段? 整数范围是0 - 2^32 - 1 一共有4G种取值,4G/256M = 16,每16个数算一段 0-151段,16-31是一段,... 
整数映射到256M段中? 如果整数是0-15,则增加第一段记数,如果整数是16-31,则增加第二段记数,... 

其实可以不用分256M段,可以分的段数少一写,这样在扫描记数段时会快一些,还能节省一些内存



腾讯题二
一个文件中有40亿个整数,每个整数为四个字节,内存为1GB,写出一个算法:求出这个文件里的整数里不包含的一个整数 

方法一: 4个字节表示的整数,总共只有2^32约等于4G个可能。 
为了简单起见,可以假设都是无符号整数。 
分配500MB内存,每一bit代表一个整数,刚好可以表示完4个字节的整数,初始值为0。基本思想每读入一个数,就把它对应的bit位置为1,处理完40G个数后,对500M的内存遍历,找出一个bit0的位,输出对应的整数就是未出现的。 
算法流程: 
1)分配500MB内存buf,初始化为0 
2)unsigned int x=0x1; 
   for each int j in file 
   buf=buf ?x < <j; 
   end 
(3) for(unsigned int i=0; i  <= 0xffffffff; i++) 
       if (!(buf & x < <i)) 
       { 
           output(i); 
           break; 
       } 
以上只是针对无符号的,有符号的整数可以依此类推。 

方法二
文件可以分段读啊,这个是O2n)算法,应该是很快的了,而且空间也允许的。 
不过还可以构造更快的方法的,更快的方法主要是针对定位输出的整数优化算法。 
思路大概是这样的,把值空间等分成若干个值段,比如值为无符号数,则 
00000000H-00000FFFH 
00001000H-00001FFFH 
...... 
0000F000H-0000FFFFH 
..... 
FFFFF000H-FFFFFFFFH 
这样可以订立一个规则,在一个值段范围内的数第一次出现时,对应值段指示值Xn=Xn+1,如果该值段的所有整数都出现过,则Xn=1000H,这样后面输出定位时就可以直接跳过这个值段了,因为题目仅仅要求输出一个,这样可以大大减少后面对标志数值的遍历步骤。 
理论上值段的划分有一定的算法可以快速的实现,比如利用位运算直接定位值段对应值进行计算。 
腾讯面试题
110w10w个数,去除2个并打乱次序,如何找出那两个数。(不准用位图!!) 
位图解决
  
位图的方法如下 
假设待处理数组为A[10w-2] 
定义一个数组B[10w],这里假设B中每个元素占用1比特,并初始化为全
for(i=0;i <10w-2;i++) 

B[ A[i] ]=1 

那么B中不为零的元素即为缺少的数据 
这种方法的效率非常高,是计算机中最常用的算法之一 
其它方法
    
求和以及平方和可以得到结果,不过可能求平方和运算量比较大(用64int不会溢出) 

腾讯面试题
腾讯服务器每秒有2wQQ号同时上线,找出5min内重新登入的qq号并打印出来。
 

解答第二题如果空间足够大,可以定义一个大的数组 
a[qq
],初始为零,然后这个qq号登陆了就a[qq]++ 
最后统计大于等于2QQ 
这个用空间来代替时间 

第二个题目,有不成熟的想法。 
2w x 300s 
所以用 6,000,000 个桶。删除超时的算法后面说,所以平均桶的大小是 1  
假设 qq 号码一共有 10^10 个,所以每个桶装的 q 号码是 10^10 / (6 * 10^6) 个,这个是插入时候的最坏效率(插入同一个桶的时候是顺序查找插入位置的)。 
qq
的节点结构和上面大家讨论的基本一样,增加一个指针指向输出列表,后面说。 
struct QQstruct { 
  num_type   qqnum; 
  timestamp  last_logon_time; 
  QQstruct   *pre; 
  QQstruct   *next; 
  OutPutList *out;    // 
用于 free 节点的时候,顺便更新一下输出列表。 


另外增加两个指针列表。 
第一个大小 300 的循环链表,自带一个指向 QQStruct 的域,循环存 300 秒内的qq指针。时间一过 
 free 掉, 所以保证所有桶占用的空间在 2w X 300 以内。 
第二个是 输出列表, 就是存放题目需要输出的节点。 
如果登陆的用户,5分钟内完全没有重复的话,每秒 free  2w 个节点。 
不过在 free 的时候,要判断一下时间是不是真的超时,因为把节点入桶的时候,遇到重复的,会更新一下最后登陆的时间。当然啦,这个时候,要把这个 qq 号码放到需要输出的列表里面。

 

 

 

如何统计一个数组中某个数的个数?

有一个7万多列,6万多行的二维数组,里面存储的数字只有0
为了节约空间,以bit形式存放。 

需求是,对这个数组的每一行,统计数字“1”出现的次数。 
现在用的是最笨的办法,就是11位的去统计,效率很低, 
请问有没有什么更好的快速的算法?
问题补充:
我想既然使用bit存放。应该是如下定义
> u_char a[10000]
 
或者 u_int8_t a[10000] 
然后构造一个映射数组,下标为一个整数, 内容为该整数对应的二进制的1的个数。 

> u_int8_t dict[256] = {0,1,1,2,1,...}; 
表示,01234,对应的二进制数种的1的个数。 

上述方法在优化过程中已经使用, 
希望寻找其他的快速算法。

 

 

问题:

给定ab两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出ab文件共同的url

答案: 
可以估计每个文件的大小为5G*64=300G,远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 
遍历文件a,对每个url求取hash(url)%1000,然后根据所得值将url分别存储到1000个小文件(设为 a0,a1,...a999)当中。这样每个小文件的大小约为300M。遍历文件b,采取和a相同的方法将url分别存储到1000个小文件 (b0,b1....b999)中。这样处理后,所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中,不对应的小文件(比如a0 vs b99)不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。 
比如对于a0 vs b0,我们可以遍历a0,将其中的url存储到hash_map当中。然后遍历b0,如果urlhash_map中,则说明此urlab中同时存在,保存到文件中即可。 
如果分成的小文件不均匀,导致有些小文件太大(比如大于2G),可以考虑将这些太大的小文件再按类似的方法分成小小文件即可。
posted @ 2012-03-14 02:30  S.Kei.Cheung  阅读(1015)  评论(0编辑  收藏  举报