随笔分类 -  转载

摘要:刚开始学习Hadoop,不断遇到新问题,以后把遇到的新问题给记下来。有时候大家会看到以下的信息,这表示没连上hdfs。ximo@ubuntu:~$ hadoop fs -ls11/11/08 10:59:32 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 time(s).11/11/08 10:59:33 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tri 阅读全文
posted @ 2013-05-27 15:14 simon1024 阅读(3189) 评论(0) 推荐(0)
摘要:本文将总结一种数据结构:跳跃表。前半部分跳跃表性质和操作的介绍直接摘自《让算法的效率跳起来--浅谈“跳跃表”的相关操作及其应用》上海市华东师范大学第二附属中学 魏冉。之后将附上跳跃表的源代码,以及本人对其的了解。难免有错误之处,希望指正,共同进步。谢谢。 跳跃表(Skip List)是1987年才诞生的一种崭新的数据结构,它在进行查找、插入、删除等操作时的期望时间复杂度均为O(logn),有着近乎替代平衡树的本领。而且最重要的一点,就是它的编程复杂度较同类的AVL树,红黑树等要低得多,这使得其无论是在理解还是在推广性上,都有着十分明显的优势。 首先,我们来看一下跳跃表的结构 跳跃表由多条链构成 阅读全文
posted @ 2013-05-26 20:00 simon1024 阅读(190) 评论(0) 推荐(0)
摘要:1.已知链表的头结点head,写一个函数把这个链表逆序[cpp]viewplaincopyvoidList::reverse(){list_node*p=head;list_node*q=p->next;list_node*r=NULL;while(q){r=q->next;q->next=p;p=q;q=r;}head->next=NULL;head=p;}递归方法:[cpp]viewplaincopyvoidList::reverse2(list_node*curnode){if(curnode==NULL)curnode=head;if(curnode->n 阅读全文
posted @ 2013-05-23 18:56 simon1024 阅读(216) 评论(0) 推荐(0)
摘要:12345678910111213141516171819202122232425262728293031structBinaryTreeNode{intvalue;BinaryTreeNode*left,*right;};booldoestree1havetree2(BinaryTreeNode*root1,BinaryTreeNode*root2);boolhassubtree(BinaryTreeNode*root1,BinaryTreeNode*root2){//noticethatresultisstaticstaticboolresult=false;if(root1!=NULL& 阅读全文
posted @ 2013-05-23 18:53 simon1024 阅读(112) 评论(0) 推荐(0)
摘要:GivenaBST(BinarysearchTree)howwillyoufindmedianinthat?Constraints:*Noextramemory.*Functionshouldbereentrant(Nostatic,globalvariablesallowed.)*Medianforevennoofnodeswillbetheaverageof2middleelementsandforoddnooftermswillbemiddleelementonly.*Algorithmshouldbeefficientintermsofcomplexity.中文不需要赘述了,就是二叉搜 阅读全文
posted @ 2013-05-23 18:00 simon1024 阅读(1371) 评论(0) 推荐(0)
摘要:PythonaddsanextensionsyntaxtoPerl’sextensionsyntax.IfthefirstcharacterafterthequestionmarkisaP,youknowthatit’sanextensionthat’sspecifictoPython.Currentlytherearetwosuchextensions:(?P<name>...)definesanamedgroup,and(?P=name)isabackreferencetoanamedgroup.>>>p=re.compile(r'(?P<wor 阅读全文
posted @ 2013-05-23 17:58 simon1024 阅读(166) 评论(0) 推荐(0)
摘要:日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:211.87.152.44–-[18/Mar/2005:12:21:42+0800]“GET/HTTP/1.1″200899“http://ww 阅读全文
posted @ 2013-05-23 17:53 simon1024 阅读(226) 评论(0) 推荐(0)
摘要:xargs是给命令传递参数的一个过滤器,也是组合多个命令的一个工具。它把一个数据流分割为一些足够小的块,以方便过滤器和命令进行处理。通常情况下,xargs从管道或者stdin中读取数据,但是它也能够从文件的输出中读取数据。xargs的默认命令是echo,这意味着通过管道传递给xargs的输入将会包含换行和空白,不过通过xargs的处理,换行和空白将被空格取代。xargs是一个强有力的命令,它能够捕获一个命令的输出,然后传递给另外一个命令,下面是一些如何有效使用xargs的实用例子。1.当你尝试用rm删除太多的文件,你可能得到一个错误信息:/bin/rmArgumentlisttoolong.用 阅读全文
posted @ 2013-05-23 17:49 simon1024 阅读(771) 评论(0) 推荐(1)
摘要:问题:求字符串str1,str2的最长公共子串的长度。1.动态规划方法算法:定义二元函数函数f(m,n):分别以str1[m],str2[n]结尾的连续公共子串的长度而对于f(m+1,n+1)有以下两种情况1.str1[m+1]!=str2[n+1],则有f(m+1,n+1)=02.str1[m+1]==str2[n+1],则有f(m+1,n+1)=f(m,n)+1另外f(0,j)=0(j>=0)f(j,0)=0(j>=0)算法的c++代码实现如下:12345678910111213141516171819202122232425262728293031intcommstr(cha 阅读全文
posted @ 2013-05-23 17:40 simon1024 阅读(187) 评论(0) 推荐(0)
摘要:作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题,欢迎交流、指正。出处:http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以 阅读全文
posted @ 2013-05-23 15:23 simon1024 阅读(461) 评论(0) 推荐(0)
摘要:有25匹马,速度都不同,但每匹马的速度都是定值。现在只有5条赛道,无法计时,即每赛一场最多只能知道5匹马的相对快慢。问最少赛几场可以找出25匹马中速度最快的前3名?(百度2008年面试题)每匹马都至少要有一次参赛的机会,所以25匹马分成5组,一开始的这5场比赛是免不了的。接下来要找冠军也很容易,每一组的冠军在一起赛一场就行了(第6场)。最后就是要找第2和第3名。我们按照第6场比赛中得到的名次依次把它们在前5场比赛中所在的组命名为A、B、C、D、E。即:A组的冠军是第6场的第1名,B组的冠军是第6场的第2名……每一组的5匹马按照他们已经赛出的成绩从快到慢编号:A组:1,2,3,4,5B组:1,2 阅读全文
posted @ 2013-05-23 15:21 simon1024 阅读(165) 评论(0) 推荐(0)
摘要:作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题,欢迎交流、指正。出处:http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以 阅读全文
posted @ 2013-05-19 18:46 simon1024 阅读(9566) 评论(0) 推荐(3)
摘要:有25匹马,速度都不同,但每匹马的速度都是定值。现在只有5条赛道,无法计时,即每赛一场最多只能知道5匹马的相对快慢。问最少赛几场可以找出25匹马中速度最快的前3名?(百度2008年面试题)每匹马都至少要有一次参赛的机会,所以25匹马分成5组,一开始的这5场比赛是免不了的。接下来要找冠军也很容易,每一组的冠军在一起赛一场就行了(第6场)。最后就是要找第2和第3名。我们按照第6场比赛中得到的名次依次把它们在前5场比赛中所在的组命名为A、B、C、D、E。即:A组的冠军是第6场的第1名,B组的冠军是第6场的第2名……每一组的5匹马按照他们已经赛出的成绩从快到慢编号:A组:1,2,3,4,5B组:1,2 阅读全文
posted @ 2013-05-19 18:44 simon1024 阅读(585) 评论(0) 推荐(0)
摘要:转自:http://blog.csdn.net/qibaoyuan/article/details/5914746代码实现:通过mod操作将指定数i映射到bitmap[i/32]的第imod32(从0开始)位。bitmap的基本操作: 1 #include <stdio.h> 2 #include <stdlib.h> 3 #define WORD 32 4 #define SHIFT 5 ////移动5个位,左移则相当于乘以32,右移相当于除以32取整 5 #define MASK 0x1F //16进制下的31 6 #define N 10000000 7 /* 8 阅读全文
posted @ 2013-05-19 17:54 simon1024 阅读(921) 评论(0) 推荐(0)
摘要:Http定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个URL地址,它用于描述一个网络上的资源,而HTTP中的GET,POST,PUT,DELETE就对应着对这个资源的查,改,增,删4个操作。到这里,大家应该有个大概的了解了,GET一般用于获取/查询资源信息,而POST一般用于更新资源信息。 1.根据HTTP规范,GET用于信息获取,而且应该是安全的和幂等的。 (1).所谓安全的意味着该操作用于获取信息而非修改信息。换句话说,GET请求一般不应产生副作用。就是说,它仅仅是获取资源信息,就像数据库... 阅读全文
posted @ 2013-05-19 17:47 simon1024 阅读(398) 评论(0) 推荐(0)
摘要:1.还原到某个版本svnup-r版本号svnup-r版本号文件名称2.还原改动对应提交(commit),要有类似回滚(rollback)的操作。svnrevert或者通过tortoiseSVN,eclipse插件。这个操作对开发人员十分有用,在改动被人很多代码后可以“一键恢复”。3.“还原”已提交的改动revert只适合未提交的情况。如果已经提交,发现问题,要回退到之前的修订版。首先需要:svnup让本地工作拷贝更新到最新状态。然后:svnlogyour_file_path查看文件日志,这时候提交时填写的说明信息就派上用场了。查看两个修订版之间的不同:svndiff-r旧修订版序号:新修订版序 阅读全文
posted @ 2013-05-19 12:49 simon1024 阅读(4177) 评论(0) 推荐(0)
摘要:但凡初次接触MongoDB的人,无不惊讶于它对内存的贪得无厌,至于个中缘由,我先讲讲Linux是如何管理内存的,再说说MongoDB是如何使用内存的,答案自然就清楚了。据说带着问题学习更有效,那就先看一个MongoDB服务器的top命令结果:shell>top-p$(pidofmongod)Mem:32872124ktotal,30065320kused,2806804kfree,245020kbuffersSwap:2097144ktotal,100kused,2097044kfree,26482048kcachedVIRTRESSHR%MEM1892g21g21g69.6这台Mong 阅读全文
posted @ 2013-05-19 12:20 simon1024 阅读(333) 评论(0) 推荐(0)