摘要: [root@gdc001 biyelunwen]# cat 178 9050 3423 45[root@gdc001 biyelunwen]# awk '{a[$1]=$2}END{for(i in a){printf i":"a[i]"\t"|"sort -n -k1"}}' 178:90 23:45 50:34 阅读全文
posted @ 2013-03-19 23:16 xinyonde 阅读(146) 评论(0) 推荐(0) 编辑
摘要: mahout分为源码安装,和二进制文件安装在使用源码安装的时候需要,需要按转maven在使用二进制文件安装时,只需要配置/et/profile 配置如下#set mahout enviromentexport HADOOP_CONF_DIR=$HADOOP_HOME/confexport MAHOUT_HOME=/home/hadoop/mahout-distribution-0.6export MAHOUT_CONF_DIR=$MAHOUT_HOME/confexport PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH 阅读全文
posted @ 2013-03-10 11:16 xinyonde 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 一个文件按列求和:文件内容 a.txt1 2 34 5 67 8 9求和语句:awk '{for(i=1;i<=NF;i++) sum[i]+=$i} END{for(i in sum) print i" "sum[i]}' a.txt求和结果1 122 153 18统计一个IP使用次数 ip.txt文件如下View Code 1 9226 113.11.198.66 2 3 762 113.12.81.57 4 5 1315 113.196.164.67 6 7 1196 117.79.149.221 8 9 9098 117.79.149.2211 阅读全文
posted @ 2013-03-04 16:57 xinyonde 阅读(153) 评论(0) 推荐(0) 编辑
摘要: uniqu 是对文件按照列去重,但是和其他常使用的shell不同 uniqu -f1 不是使用f1 字段进行去重,而是忽略f1例如我想对如下文件start.txt安装第二列去重图书音像:小说:悬疑 01.03.38图书音像:小说:言情 01.03.44.01图书音像:小说:职场 01.03.48图书音像:小说:财经 01.03.49图书音像:文艺:文学 01.05图书音像:文艺:传记 01.38图书音像:文艺:艺术 01.07图书音像:文艺:摄影 9941图书音像:青春:青春文学 01.01图书音像:青春:动漫 ... 阅读全文
posted @ 2013-03-04 10:37 xinyonde 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 要求输出整形,整形位数为四位,不足四位,使用0补齐seq 100 |awk '{printf("%05d\n",$0)}'输出00001000020000300004000050000600007000080000900010000110001200013 阅读全文
posted @ 2013-03-04 00:15 xinyonde 阅读(337) 评论(0) 推荐(0) 编辑
摘要: Linux 下打包除了某一个文件下的子文件夹打包命令tar --exclude ProducSpider/data -czvf Sample.tar ProducSpider/使用exclude命令 注意 exclude后面的文件夹名称不能使用/否则无效把打包文件远程拷贝另一台主机scp Sample.tar root@192.168.1.200:/home/root解压文件:tar -zxvf Sample.tar修改终端位置/etc/profile添加:export PS1='[\u@\h:\w] \$'立即生效:source/etc/profile修改后效果:[ab@CC 阅读全文
posted @ 2013-02-26 17:19 xinyonde 阅读(258) 评论(0) 推荐(0) 编辑
摘要: shell编程中,经常需要将由特定分割符分割的字符串分割成数组,多数情况下我们首先会想到使用awk 但是实际上用shell自带的分割数组功能会更方便。假如 a=”one,two,three,four”要将$a分割开,可以这样: OLD_IFS=”$IFS” IFS=”,” arr=($a) IFS=”$OLD_IFS” for s in ${arr[@]} do echo “$s” done上述代码会输出 one two three fourarr=($a)用于将字符串$a分割到数组$arr ${arr[0]} ${arr[1]} … 分别存储分割后的数组第1 2 … 项 ,${arr[@]} 阅读全文
posted @ 2013-01-24 10:09 xinyonde 阅读(890) 评论(0) 推荐(0) 编辑
摘要: 运行结果e 5.0a 4.0c 3.2d 2.213b 2.2程序代码package GetSemeticWord;import java.util.Comparator;import java.util.HashMap;import java.util.Map;import java.util.Set;import java.util.TreeSet;import java.util.Map.Entry;public class test { /** * @param args */ public static void main(String[] args) { Map<String 阅读全文
posted @ 2013-01-13 19:02 xinyonde 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 介绍pig,一个不得不说的hadoop的扩展。1.2 什么是pigPig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。1.3 pig的特点1、专注于于大量数据集分析(ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem ); 2、运行在集群的计算架构上,Yahoo Pi 阅读全文
posted @ 2013-01-06 15:42 xinyonde 阅读(728) 评论(0) 推荐(0) 编辑
摘要: 代码如下import java.awt.BasicStroke;import java.awt.Color;import java.awt.Font;import java.awt.GradientPaint;import java.io.File;import java.io.IOException;import javax.swing.JPanel;import org.jfree.chart.ChartFactory;import org.jfree.chart.ChartPanel;import org.jfree.chart.ChartUtilities;import org.jfr 阅读全文
posted @ 2013-01-04 09:57 xinyonde 阅读(769) 评论(0) 推荐(0) 编辑