摘要: 准备写一篇关于奇异值分解的文章,突然发现里面需要用到很多线性代数的知识。因此先介绍一下线性代数的基本概念和运算,有助于读者对奇异值分解的理解。1 基本概念 一个矩阵就是有若干行和列组成的数字,相当于一个表格。 特别地,如果矩阵的行和列个数相同,则该矩阵为一个方阵。在矩阵中A中的元素aij,代表第i行第j列的元素。自左上角元素向右下角元素的连线为主对角线,主对角线上元素的和称为矩阵的迹。 只有一行的矩阵叫做行矩阵,只有一列的矩阵叫做列矩阵。所有元素都为0的矩阵为空矩阵如果一个矩阵只有对角线上的元素不为零,这样的矩阵叫对角阵。如果一个对角矩阵所有元素都相等,叫做标量矩阵。特别地,如果所有元素... 阅读全文
posted @ 2012-01-18 13:46 ~大器晚成~ 阅读(3448) 评论(3) 推荐(0) 编辑
摘要: 最近一直在使用Linux,积累了一些经验和使用技巧。废话不说,拿来和大家分享一下。1 查看文件的行数wc -l filepath2 文件排序sort -k1 -k2 -t " " -n -r filepath 上面的命令为按照第一列,第二列进行数字倒序排列文件记录,分隔符为\t。特别注意:当含有中文排序时,需要特殊指定LC_ALL=C进行排序。命令为 LC_ALL=Csort -k1 -k2 -t " " -n -r filepath3 查看当前进程ps ux4 查看进程占用资源情况top ctrl+c退出5 查看硬盘和内存df -h / free6 s 阅读全文
posted @ 2012-01-18 11:31 ~大器晚成~ 阅读(1023) 评论(0) 推荐(0) 编辑
摘要: 前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限,并没有介绍其中的高级使用方法,但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明,希望能给大家一些启发。 1 使用cacheFile分发文件 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理,,可以使用-cacheFile hdfs://host:port/path/to/file#linkname选项在计算节点缓存文件,Streaming程序通过./linkname访问文件。 例如: hadoop = `which hadoop` $hado... 阅读全文
posted @ 2012-01-16 23:20 ~大器晚成~ 阅读(18971) 评论(6) 推荐(3) 编辑
摘要: 上一篇文章介绍了Streaming的各种参数,本文具体介绍使用方法。提交hadoop任务示例:$HADOOP_HOME/bin/hadoop streaming \-input /user/test/input -output /user/test/output \-mapper “mymapper.sh” -reducer “myreducer.sh” \-file/home/work/mymapper.sh \-file /home/work/myreducer.sh \-jobconf mapred.job.name=”file-demo”上面的命令提交了一个hadoop任务,输出和输入 阅读全文
posted @ 2012-01-16 12:49 ~大器晚成~ 阅读(4172) 评论(0) 推荐(0) 编辑
摘要: Streaming简介Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个新的进程启动包装的用户程序,将数据通过管道传递给包装的用户程序处理,然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。Streaming优点1 开发效率高,便于移植只要按照标准输入输出格式 阅读全文
posted @ 2012-01-16 11:47 ~大器晚成~ 阅读(34104) 评论(1) 推荐(2) 编辑
摘要: 前一阵一直在使用hadoop集群,也积累了一些使用经验,本文分享一下hadoop的文件操作hadoop fs -touch [filepath] 在指定地方创建一个文件hadoop fs -get [filepath] [localpath] 将集群上的文件下载到本地hadoop fs -put [localfile] [filepath] 将本地文件上传到集群hadoop fs -cat [filepath] 查看集群上文件hadoop fs -rmr [filepath] 删除集群上的文件或文件夹(其实只是移动到回收站,回收站会每天定时清空,因此如果删错可以立刻去回收站找回来)hadoop 阅读全文
posted @ 2012-01-14 20:41 ~大器晚成~ 阅读(2955) 评论(0) 推荐(1) 编辑
摘要: 在平常的工作中,经常会遇到一些例行任务,需要每天定时运行。解决这类问题就可以使用crontab命令,下面一起来看一下~首先需要启动crontab服务service crond start #启动服务 service crond stop #关闭服务 service crond restart #重启服务 service crond reload #重新载入配置然后使用crontab -e进行编辑,然后进行例行任务的编辑,之后保存退出即可。具体的格式说明如下:每一行的格式为:分 时 日 月 周 命令第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表 阅读全文
posted @ 2012-01-14 20:34 ~大器晚成~ 阅读(9877) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/liuxincumt/archive/2010/12/15/6076903.aspx经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted" "OS error code 2: No such file or directory" "OS error code 3: No such process" &quo 阅读全文
posted @ 2012-01-13 18:20 ~大器晚成~ 阅读(5540) 评论(0) 推荐(0) 编辑
摘要: 2012到了,因此我打算赶快在“有生之年”总结一下我的技术之路~ 和很多学计算机专业的同学一样,我也是从考上大学,才开始接触计算机技术的。之前对计算机的理解也只是停留在游戏上网娱乐阶段,可以说学计算机对于我来说是很偶然的事情。这里不得不提一下中国的教育,在考大学前,我对绝大多数所报考的专业都不了解,至少没有一个理性的认识,这直接导致了报考专业的盲目性。我相信大多数的人是和我一样吧,在报考专业时都是学校驱动的。当时我只是看了一下我所报学校的专业排名,然后选了个高的。于是我就偶然而又必然的进入了计算机的世界。好在我比较幸运,我对技术很快产生了兴趣,而现在事实证明,我没有选错专业~ 从06年... 阅读全文
posted @ 2012-01-13 18:06 ~大器晚成~ 阅读(1112) 评论(6) 推荐(2) 编辑
摘要: 今天说说正则表达式。这可是写程序经常遇到的,也是一个程序员必须掌握的技术。其实不只是java,任何的技术任何的语言都离不开正则表达式,而且他们得形式都大同小异,基本上是一样的。下面先说说正则表达式,这里推荐一篇文章,http://blog.csdn.net/cping1982/article/details/1900808 其中详细的介绍了正则表达式的常用方法,可以说已经非常详细了。我就不多解释了。下面给出一些常用的正则程序:1 去除字符串两边的空格/***去掉字符串两边的空格*@paramres传入的字符串*@return去掉空格之后的字符串*/publicstaticStringTrimS 阅读全文
posted @ 2011-07-12 19:22 ~大器晚成~ 阅读(565) 评论(0) 推荐(1) 编辑