(转)笔试题：海量数据查询排序-数据结构

关键字: work

1、请定义一个宏，比较两个数a、b的大小，不能使用大于、小于、if语句
2、如何输出源文件的标题和目前执行行的行数
3、两个数相乘，小数点后位数没有限制，请写一个高精度算法
4、写一个病毒
5、有A、B、C、D四个人，要在夜里过一座桥。他们通过这座桥分别需要耗时1、2、5、10分钟，只有一支手电，并且同时最多只能两个人一起过桥。请问，如何安排，能够在17分钟内这四个人都过桥？

2008年腾讯招聘
选择题(60)
c/c++ os linux方面的基础知识c的Sizeof函数有好几个!
程序填空(40)
1.(20) 4空x5
不使用额外空间,将A,B两链表的元素交叉归并
2.(20) 4空x5
MFC将树序列化转存在数组或链表中!

1,计算a^b << 2 (运算符优先级问题)
先移位再相与。
2根据先序中序求后序

3 a[3][4]哪个不能表示a[1][1]: *(&a[0][0]) *(*(a+1)+1) *(&a[1]+1) *(&a[0][0]+4)？*(&a[0][0])

4 for(int i...)
for(int j...)
printf(i,j);
printf(j)
会出现什么问题

定义的ij不在范围内

5 for(i=0;i<10;++i,sum+=i);的运行结果 55

6 10个数顺序插入查找二叉树，元素62的比较次数

7 10个数放入模10hash链表，最大长度是多少

8 fun((exp1,exp2),(exp3,exp4,exp5))有几个实参

形参和实参有以下显著的区别:
    1、形参不能离开方法。形参只有在方法内才会发生作用，也只有在方法中使用，不会在方法外可见。而实参可以再程序的任何地方都使用。
    2、形参代表一个合集，具有不确定性，而形参代表一个独立事物，具有确定性（即使是为null）。也就是说，形参不能代表具体的对象，只能代表这些对象共同的属性（比如超类、各种其他自定义属性等等），而实参则是具体的对象（比如超类的实例）。
    3、形参的值在调用时根据调用者更改，实参则用自身的值更改形参的值（指针、引用皆在此列）、

用通俗的话来说，形参告诉你什么样的东西才能用它，就好像一个声明、公告或者通则；而实参则是告诉你我在用它，就像一个实干家
实参是5个 形参是两个

9希尔冒泡快速插入哪个平均速度最快

10二分查找是顺序存储链存储按value有序中的哪些？？？？

11顺序查找的平均时间

12 *p=NULL *p=new char[100] sizeof(p)各为多少100

13频繁的插入删除操作使用什么结构比较合适，链表还是数组

14 enum的声明方式

/*********************************************
*枚举
格式:
enum <枚举类型名> {<枚举表>}; (见例1)
enum {<枚举表>}<变量名表>; (见例2)

第一个枚举值对应着一个整型数,通常情况下,第一个枚
举值对应着常量值0,后面低次.(特殊用法参考例3 例4)

enum bool {false,true}; //bool类型就是C++预定义的枚举
*********************************************/
#include <iostream.h>

void main()
...{
//例1
enum day...{Sun,Mon,Tue,Wed,Thu,Fri,Sat};//定义一个day的枚举
day d = Sun; //d只能等于"Sun,Mon,Tue,Wed,Thu,Fri,Sat"中的一个,没有其它值!
cout<<"value is "<<d<<endl;

//也可以定义多个变量
enum day...{Sun,Mon,Tue,Wed,Thu,Fri,Sat};
day d1,d2,d3;
d1 = Thu; d2 = Sat; d3 = Tue;
cout<<"d1 && d2 && d3 "<<d1<<" "<<d2<<" "<<d3<<endl;

//例2
enum ...{Sun,Mon,Tue,Wed,Thu,Fri,Sat} d;
d = Mon;
cout<<"value is "<<d<<endl;

//例3
enum ...{Sun=10,Mon,Tue,Wed,Thu,Fri,Sat} d1,d2,d3,d4;
d1 = Sun; d2 = Mon; d3 = Tue; d4 = Wed;
cout<<d1<<" "<<d2<<" "<<d3<<" "<<d4<<endl; //输出 10 11 12 13

//例4
enum ...{Sun=10,Mon=1,Tue,Wed,Thu,Fri,Sat} d1,d2,d3,d4;
d1 = Sun; d2 = Mon; d3 = Tue; d4 = Wed;
cout<<d1<<" "<<d2<<" "<<d3<<" "<<d4<<endl; //输出 10 1 2 3

15 1-20的两个数把和告诉A,积告诉B，A说不知道是多少，

B也说不知道，这时A说我知道了，B接着说我也知道了，问这两个数是多少
2*3=6，2+3=5

大题：

1把字符串转换为小写，不成功返回NULL,成功返回新串

char* toLower(char* sSrcStr)
{
char* sDest= NULL;
if( __sDest！=NULL__)
{
int j;
sLen = strlen(sSrcStr);
sDest = new [_____char[sLen]_______];
if(*sDest == NULL)
return NULL;
sDest[sLen] = '\0';
while(*sDest［i++］>97) ？？？
sDest[sLen] = toLowerChar(sSrcStr[sLen]);
}
return sDest;
}

2把字符串转换为整数例如："-123" -> -123

main()
{
.....
if( *string == '-' )
n = ____1______;
else
n = num(string);
.....
}

int num(char* string)
{
for(;!(*string==0);string++)
{
int k;
k = __2_____;
j = --sLen;
while( __3__)
k = k * 10;
num = num + k;
}
return num;
}
附加题：

1 linux下调试core的命令，察看堆栈状态命令
2写出socks套接字服务端客户端通讯程序
3填空补全程序，按照我的理解是添入：win32调入dll的函数名

查找函数入口的函数名找到函数的调用形式
把formView加到singledoc的声明将singledoc加到app的声明

4有关系s(sno,sname) c(cno,cname) sc(sno,cno,grade)
1问上课程"db"的学生no
2成绩最高的学生号
3每科大于90分的人数

主要是c/c++、数据结构、操作系统等方面的基础知识。好像有sizeof、树等选择题。填空题是补充完整程序。附加题有写算法的、编程的、数据库sql语句查询的。还有一张开放性问题。

请定义一个宏，比较两个数a、b的大小，不能使用大于、小于、if语句
#define Max(a,b) ( a/b)?a:b

如何输出源文件的标题和目前执行行的行数
int line = __LINE__;
char *file = __FILE__;
cout<<"file name is "<<(file)<<",line is "<<line<<endl;

两个数相乘，小数点后位数没有限制，请写一个高精度算法

写一个病毒
while (1)

{

int *p = new int[10000000];

}
不使用额外空间,将 A,B两链表的元素交叉归并，将树序列化转存在数组或链表中
struct st{
int i;
short s;
char c;
};
sizeof(struct st);
8
   char * p1;
   void * p2;
   int p3;
   char p4[10];
   sizeof(p1...p4) =?
4，4，4，10

二分查找
快速排序
双向链表的删除结点

有12个小球,外形相同,其中一个小球的质量与其他11个不同
给一个天平,问如何用3次把这个小球找出来
并且求出这个小球是比其他的轻还是重
解答:
哈哈，据说这是微软前几年的一个面试题。很经典滴啊！三次一定能求出来，而且能确定是重还是轻。
数据结构的知识还没怎么学透，不过这个题我到是自己研究过，可以分析下。
将12个球分别编号为a1,a2,a3.......a10,a11,a12.
第一步：将12球分开3拨，每拨4个，a1~a4第一拨，记为b1， a5~a8第2拨，记为b2，其余第3拨，记为b3；
第二步：将b1和b2放到天平两盘上，记左盘为c1，右为c2；这时候分两中情况：

1.c1和c2平衡，此时可以确定从a1到a8都是常球；然后把c2拿空，并从c1上拿下a4，从a9到a12四球里随便取三球，假设为a9到a11，放到c2上。此时c1上是a1到a3，c2上是a9到a11。从这里又分三种情况：
     A：天平平衡，很简单，说明没有放上去的a12就是异球，而到此步一共称了两次，所以将a12随便跟11个常球再称一次，也就是第三次，马上就可以确定a12是重还是轻；
     B：若c1上升，则这次称说明异球为a9到a11三球中的一个，而且是比常球重。取下c1所有的球，并将a10放到c1上，将a9取下，比较a10和a11（第三次称），如果平衡则说明从c2上取下的a9是偏重异球，如果不平衡，则偏向哪盘则哪盘里放的就是偏重异球；
     C：若c1下降，说明a9到a11里有一个是偏轻异球。次种情况和B类似，所以接下来的步骤照搬B就是；

2.c1和c2不平衡，这时候又分两种情况，c1上升和c1下降，但是不管哪种情况都能说明a9到a12是常球。这步是解题的关键。也是这个题最妙的地方。
     A：c1上升，此时不能判断异球在哪盘也不能判断是轻还是重。取下c1中的a2到a4三球放一边，将c2中的a5和a6放到c1上，然后将常球a9放到c2上。至此，c1上是a1，a5和a6，c2上是a7，a8和a9。此时又分三中情况：
         1）如果平衡，说明天平上所有的球都是常球，异球在从c1上取下a2到a4中。而且可以断定异球轻重。因为a5到a8都是常球，而第2次称的时候c1是上升的，所以a2到a4里必然有一个轻球。那么第三次称就用来从a2到a4中找到轻球。这很简单，随便拿两球放到c1和c2，平衡则剩余的为要找球，不平衡则哪边低则哪个为要找球；
         2）c1仍然保持上升，则说明要么a1是要找的轻球，要么a7和a8两球中有一个是重球（这步懂吧？好好想想，很简单的。因为a9是常球，而取下的a2到a4肯定也是常球，还可以推出换盘放置的a5和a6也是常球。所以要么a1轻，要么a7或a8重）。至此，还剩一次称的机会。只需把a7和a8放上两盘，平衡则说明a1是要找的偏轻异球，如果不平衡，则哪边高说明哪个是偏重异球；
         3）如果换球称第2次后天平平衡打破，并且c1降低了，这说明异球肯定在换过来的a5和a6两求中，并且异球偏重，否则天平要么平衡要么保持c1上升。确定要找球是偏重之后，将a5和a6放到两盘上称第3次根据哪边高可以判定a5和a6哪个是重球；
     B：第1次称后c1是下降的，此时可以将c1看成c2，其实以后的步骤都同A，所以就不必要再重复叙述了。至此，不管情况如何，用且只用三次就能称出12个外观手感一模一样的小球中有质量不同于其他11球的偏常的球。而且在称的过程中可以判定其是偏轻还是偏重。

给一个奇数阶N幻方，填入数字1，2，3...N*N,使得横竖斜方向上的和都相同
答案:
#include<iostream>

#include<iomanip>

#include<cmath>

using namespace std;

int main()

{

int n, i;

cout << "Please input the rows and columns: ";

cin >> n;

int **Matr = new int *[n];//动态分配二维数组

for (i = 0; i < n; ++i)

Matr[i] = new int[n];//动态分配二维数组

//j=n/2代表首行中间数作为起点，即1所在位置

int j = n/2, num = 1;//初始值 i=0;

while(num != n*n+1)

{

//往右上角延升，若超出则用%转移到左下角

Matr[(i % n + n) % n][(j % n + n) % n] = num; //斜行的长度和n是相等的，超出则转至下一斜行

if(num%n == 0)

i++;

else

{

i--;

j++;

}

num++;

}

for(i = 0; i < n; i++)

{

for(j = 0; j < n; ++j)

{

cout<<setw((int)log10(n*n)+4) << Matr[i][j];//格式控制

}

cout << endl << endl;//格式控制

}

for(i = 0; i < n; ++i)

delete[] Matr[i];

Matr = NULL;

return 0;

}

腾讯的一道面试题:(与百度相似,可惜昨天百度死在这方面了)
在一个文件中有 10G 个整数，乱序排列，要求找出中位数。内存限制为 2G。只写出思路即可。

答案:
1，把整数分成256M段，每段可以用64位整数保存该段数据个数，256M*8 = 2G内存，先清0
2，读10G整数，把整数映射到256M段中，增加相应段的记数
3，扫描256M段的记数，找到中位数的段和中位数的段前面所有段的记数，可以把其他段的内存释放
4，因中位数段的可能整数取值已经比较小（如果是32bit整数，当然如果是64bit整数的话，可以再次分段），对每个整数做一个记数，再读一次10G整数，只读取中位数段对应的整数，并设置记数。
5，对新的记数扫描一次，即可找到中位数。
如果是32bit整数，读10G整数2次，扫描256M记数一次，后一次记数因数量很小，可以忽略不记
(设是32bit整数，按无符号整数处理
整数分成256M段？整数范围是0 - 2^32 - 1 一共有4G种取值，4G/256M = 16，每16个数算一段 0-15是1段，16-31是一段，...
整数映射到256M段中？如果整数是0-15，则增加第一段记数，如果整数是16-31，则增加第二段记数，...

其实可以不用分256M段，可以分的段数少一写，这样在扫描记数段时会快一些，还能节省一些内存)

腾讯题二:
一个文件中有40亿个整数，每个整数为四个字节，内存为1GB，写出一个算法：求出这个文件里的整数里不包含的一个整数
答:
方法一: 4个字节表示的整数，总共只有2^32约等于4G个可能。
为了简单起见，可以假设都是无符号整数。
分配500MB内存，每一bit代表一个整数，刚好可以表示完4个字节的整数，初始值为0。基本思想每读入一个数，就把它对应的bit位置为１，处理完40G个数后，对500M的内存遍历，找出一个bit为0的位，输出对应的整数就是未出现的。
算法流程：
１）分配５００ＭＢ内存buf，初始化为０
２）unsigned int x=0x1;
   for each int j in file
   buf=buf ?x < <j;
   end
(3) for(unsigned int i=0; i <= 0xffffffff; i++)
       if (!(buf & x < <i))
       {
           output(i);
           break;
       }
以上只是针对无符号的，有符号的整数可以依此类推。

方法二:
文件可以分段读啊，这个是O（2n）算法，应该是很快的了，而且空间也允许的。
不过还可以构造更快的方法的，更快的方法主要是针对定位输出的整数优化算法。
思路大概是这样的，把值空间等分成若干个值段，比如值为无符号数，则
00000000H-00000FFFH
00001000H-00001FFFH
......
0000F000H-0000FFFFH
.....
FFFFF000H-FFFFFFFFH
这样可以订立一个规则，在一个值段范围内的数第一次出现时，对应值段指示值Xn=Xn+1，如果该值段的所有整数都出现过，则Xn=1000H，这样后面输出定位时就可以直接跳过这个值段了，因为题目仅仅要求输出一个，这样可以大大减少后面对标志数值的遍历步骤。
理论上值段的划分有一定的算法可以快速的实现，比如利用位运算直接定位值段对应值进行计算。
腾讯面试题:
有1到10w这10w个数，去除2个并打乱次序，如何找出那两个数。（不准用位图！！）
位图解决:
  位图的方法如下
假设待处理数组为A[10w-2]
定义一个数组B[10w],这里假设B中每个元素占用1比特,并初始化为全0
for(i=0;i <10w-2;i++)
{
B[ A[i] ]=1
}
那么B中不为零的元素即为缺少的数据
这种方法的效率非常高，是计算机中最常用的算法之一
其它方法:
    求和以及平方和可以得到结果，不过可能求平方和运算量比较大（用64位int不会溢出）

腾讯面试题:
腾讯服务器每秒有2w个QQ号同时上线，找出5min内重新登入的qq号并打印出来。

解答: 第二题如果空间足够大,可以定义一个大的数组
a[qq号],初始为零,然后这个qq号登陆了就a[qq号]++
最后统计大于等于2的QQ号
这个用空间来代替时间

第二个题目，有不成熟的想法。
2w x 300s
所以用 6,000,000 个桶。删除超时的算法后面说，所以平均桶的大小是 1 。
假设 qq 号码一共有 10^10 个，所以每个桶装的 q 号码是 10^10 / (6 * 10^6) 个，这个是插入时候的最坏效率（插入同一个桶的时候是顺序查找插入位置的）。
qq的节点结构和上面大家讨论的基本一样，增加一个指针指向输出列表，后面说。
struct QQstruct {
num_type   qqnum;
timestamp last_logon_time;
QQstruct   *pre;
QQstruct   *next;
OutPutList *out;    // 用于 free 节点的时候，顺便更新一下输出列表。
}

另外增加两个指针列表。
第一个大小 300 的循环链表，自带一个指向 QQStruct 的域，循环存 300 秒内的qq指针。时间一过
就 free 掉，所以保证所有桶占用的空间在 2w X 300 以内。
第二个是输出列表，就是存放题目需要输出的节点。
如果登陆的用户，5分钟内完全没有重复的话，每秒 free 掉 2w 个节点。
不过在 free 的时候，要判断一下时间是不是真的超时，因为把节点入桶的时候，遇到重复的，会更新一下最后登陆的时间。当然啦，这个时候，要把这个 qq 号码放到需要输出的列表里面。

如何统计一个数组中某个数的个数？

有一个7万多列，6万多行的二维数组，里面存储的数字只有0，1
为了节约空间，以bit形式存放。

需求是，对这个数组的每一行，统计数字“1”出现的次数。
现在用的是最笨的办法，就是1位1位的去统计，效率很低，
请问有没有什么更好的快速的算法？
问题补充：
> 我想既然使用bit存放。应该是如下定义:
> u_char a[10000]；
> 或者 u_int8_t a[10000]；
> 然后构造一个映射数组，下标为一个整数，内容为该整数对应的二进制的1的个数。

> u_int8_t dict[256] = {0,1,1,2,1,...};
> 表示，0，1，2，3，4，对应的二进制数种的1的个数。

上述方法在优化过程中已经使用，
希望寻找其他的快速算法。

问题：

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

答案：
可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为 a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件 (b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可。

posted @ 2012-03-14 02:30 S.Kei.Cheung 阅读(1015) 评论(0) 编辑收藏举报

刷新页面返回顶部

Cheung.S.Kei

(转)笔试题：海量数据查询排序-数据结构

公告