摘要: (1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)(2).JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId(3).client将jar包写入到HDFS当中(path = hdfs上的地址 +... 阅读全文
posted @ 2015-03-26 22:29 蒋源德 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 基本格式 :* * * * * command分 时 日 月 周 命令第1列表示分钟1~59 每分钟用*或者 */1表示第2列表示小时1~23(0表示0点)第3列表示日期1~31第4列表示月份1~12第5列标识号星期0~6(0表示星期天)第6列要运行的命令crontab文件的一些... 阅读全文
posted @ 2015-03-26 22:08 蒋源德 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 1.安装Pig将pig添加到环境变量当中2.pig使用首先将数据库中的数据导入到HDFS上sqoop import --connect jdbc:mysql://192.168.1.10:3306/cloud --username root --password JChubby123 --table... 阅读全文
posted @ 2015-03-26 22:03 蒋源德 阅读(192) 评论(0) 推荐(0) 编辑
摘要: hive是依赖于hdfs和yarn的一个数据仓库数据库和数据仓库的区别:数据库在存储数据的同时,允许实时的增删改查等操作数据仓库在存储数据的同时还执行着计算和分析数据的工作,但是并不能实时的进行增删改等操作,如果需要对数据进行更新则需要将数据下载下来更新之后再放入数据仓库中,是一次写入多次读取的过程... 阅读全文
posted @ 2015-03-26 18:00 蒋源德 阅读(2089) 评论(0) 推荐(0) 编辑