04 2015 档案
摘要:语法:CREATE [TEMPORARY] TABLE [IF NOT EXISTS] tbl_name [(create_definition,...)] [table_options] [select_statement]CREATE [TEMPORARY] TABLE [IF NOT EXIS...
阅读全文
摘要:Linux指令篇:磁盘管理--tree功能说明:以树状图列出目录的内容。语 法:tree[-aACdDfFgilnNpqstux][-I][-P][目录...]补充说明:执行tree指令,它会列出指定目录下的所有文件,包括子目录里的文件。参 数:-a显示所有文件和目录。-A使用ASNI绘图字符显...
阅读全文
摘要:一、HDFS介绍1.1 背景随着数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。学术一点的定义就是:分布式文件系统是一种允许文件通过网络在多台主机上分享的文件 的系统,可...
阅读全文
摘要:当你在玩Linux的时候,如果你经常使用命令行来控制你的Linux系统,那么有效地使用命令历史机制将会使效率获得极大提升。事实上,一旦你掌 握了我在下面给出的15个有关Linux history历史命令的例子,你就会发现使用history历史命令行将更有乐趣。1、使用HISTTIMEFORMAT在历...
阅读全文
摘要:一. 解压安装jdk在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议,连继敲回车,当询问是否同意的时候,输入yes,回车。之后会在当前目录下生成一个jdk1.6.0_14目录,你可以将它...
阅读全文
摘要:http://www.ruanyifeng.com/blog/2011/12/ssh_remote_login.html
阅读全文
摘要:参考:http://www.ruanyifeng.com/blog/2011/08/what_is_a_digital_signature.htmlhttp://www.elecfans.com/baike/tongxingjishu/chungshuwang/20110710205779.html
阅读全文
摘要:随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏...
阅读全文
摘要:第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小...
阅读全文
摘要:一:如果是小文件,可以一次性读入到数组中,使用方便的数组计数函数进行词频统计(假设文件中内容都是空格隔开的单词): <?php $str = file_get_contents("/path/to/file.txt"); //get string from file pre...
阅读全文
摘要:背景: 下面是获取文件的行数的方法: 一个文件如果知道有几行的话,就可以控制获取一定的行数的数据,然后放入数据库。这样不管的读取大文件的性能,还是写入数据库的性能,都能得到很大的提高了。 下面是获取文件的行数的方法 $temp_file = 'error.log';$fp =...
阅读全文