瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页

2014年11月28日 #

摘要: 1、MapReduce代码入口FileInputFormat.setInputPaths(job, new Path(input)); //设置MapReduce输入格式job.waitForCompletion(true);2、InputFormat分析public abstract class ... 阅读全文
posted @ 2014-11-28 23:34 瞌睡中的葡萄虎 阅读(740) 评论(0) 推荐(0) 编辑

2014年11月26日 #

摘要: 1、hive数据仓库权限问题:set hive.warehouse.subdir.inherit.perms=true;2、HiveServer2的内存连接的个数越多压力越大,可以加大内存;可以通过-Xmx设置,在脚本中设置:-Xmx=2048m 甚至 -Xmx=4g3、关闭推测式任务:默认是打开的... 阅读全文
posted @ 2014-11-26 22:03 瞌睡中的葡萄虎 阅读(1376) 评论(0) 推荐(0) 编辑

2014年11月20日 #

摘要: 静态分区表:一级分区表:CREATE TABLE order_created_partition ( orderNumber STRING , event_time STRING)PARTITIONED BY (event_month string)ROW FORMAT DELIMITED... 阅读全文
posted @ 2014-11-20 17:52 瞌睡中的葡萄虎 阅读(15863) 评论(1) 推荐(1) 编辑

2014年11月19日 #

摘要: 方式一: hadoop命令导出hadoop fs -get hdfs://hadoop000:8020/data/page_views2 pv2方式二:通过insert...directory导出 【spark暂不支持】导出到本地:INSERT OVERWRITE LOCAL directory... 阅读全文
posted @ 2014-11-19 16:06 瞌睡中的葡萄虎 阅读(1228) 评论(0) 推荐(0) 编辑

2014年11月8日 #

摘要: Apache Hadoop生态系统安装包下载地址:http://archive.apache.org/dist/软件安装目录:~/appjdk: jdk-7u45-linux-x64.rpmhadoop: hadoop-2.5.1-src.tar.gzmaven: apache-maven-3.0.... 阅读全文
posted @ 2014-11-08 20:45 瞌睡中的葡萄虎 阅读(1578) 评论(0) 推荐(0) 编辑

2014年11月7日 #

摘要: mvn install:install-file -DgroupId=com.asiainfo -DartifactId=spark-assembly -Dversion=1.2.0 -Dpackaging=jar -Dfile=/home/spark/software/source/compile... 阅读全文
posted @ 2014-11-07 15:42 瞌睡中的葡萄虎 阅读(313) 评论(0) 推荐(0) 编辑

2014年10月24日 #

摘要: 副本机制1、副本摆放策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;第二副本:放置在于第一个副本不同的机架的节点上;第三副本:与第二个副本相同机架的不同节点上;如果还有更多的副本:随机放在节点中;2、副本系数1)对于上传文件到HDF... 阅读全文
posted @ 2014-10-24 22:33 瞌睡中的葡萄虎 阅读(1695) 评论(0) 推荐(0) 编辑

2014年10月23日 #

摘要: package com.luogankun.hadoop.hdfs.api;import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.InputStream... 阅读全文
posted @ 2014-10-23 17:29 瞌睡中的葡萄虎 阅读(701) 评论(0) 推荐(0) 编辑

2014年10月20日 #

摘要: 1、delete不能使自动编号返回为起始值。但是truncate能使自动增长的列的值返回为默认的种子。2、truncate只能一次清空,不能按条件删除。但是delete可以按条件清除部分记录。3、truncate清空数据表性能(速度)比delete快。4、truncate不会记录到系统日志,不会触发... 阅读全文
posted @ 2014-10-20 16:23 瞌睡中的葡萄虎 阅读(263) 评论(0) 推荐(0) 编辑

2014年10月16日 #

摘要: 1、通过Redis的复制功能,用户可以创建指定服务器的任意多个复制品,每个复制品服务器和被复制的原服务器拥有相同的数据;2、通过将读请求分散给多个从服务器处理,用户可以减少主服务器在处理读请求方面的负担,并提高整个系统处理读请求的能力;3、在一个既有主服务器又有从服务器的系统中,当从服务器下线时,系... 阅读全文
posted @ 2014-10-16 20:31 瞌睡中的葡萄虎 阅读(563) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 ··· 15 下一页