瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 6 7 8 9 10 11 12 13 14 15 下一页

2014年8月27日 #

摘要: 创建表create 'test1', 'lf', 'sf'lf: column family of LONG values (binary value) -- sf: column family of STRING values导入数据put 'test1', ... 阅读全文
posted @ 2014-08-27 16:14 瞌睡中的葡萄虎 阅读(21138) 评论(0) 推荐(5) 编辑

摘要: 一般操作查看服务器状态status查看hbase版本versionDDL操作创建表create 'member','member_id','address','info'创建了3个列族,分别是member_id, address, info知识点回顾:cf是schema的一部分,而column不是。... 阅读全文
posted @ 2014-08-27 15:50 瞌睡中的葡萄虎 阅读(1090) 评论(0) 推荐(0) 编辑

2014年8月21日 #

摘要: 在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,比如说:map、filter、group by等都算一次操作,这个状态有可能是从前一状态转换而来的;因此换句话说一个RDD可能与之前的RDD(s)有依赖关系;RDD之间存在依赖关系;根据依赖关系的不同,可以将RDD分成两种不同的类型:宽... 阅读全文
posted @ 2014-08-21 15:57 瞌睡中的葡萄虎 阅读(1291) 评论(0) 推荐(1) 编辑

摘要: 记录下提交过程,易忘供查询用。内容源自田总的分享。1)在github上fork一份最新的master代码2)用社区代码库创建本地仓库git clone https://github.com/apache/spark test-spark3)加入自己的github代码库cd test-sparkgit... 阅读全文
posted @ 2014-08-21 15:38 瞌睡中的葡萄虎 阅读(958) 评论(0) 推荐(0) 编辑

2014年8月20日 #

摘要: private case class MemoryEntry(value: Any, size: Long, deserialized: Boolean)class MemoryStore(blockManager: BlockManager, maxMemory: Long)extends Blo... 阅读全文
posted @ 2014-08-20 16:31 瞌睡中的葡萄虎 阅读(923) 评论(0) 推荐(0) 编辑

摘要: BlockManager中存储block的流程: doPut()方法 入参:blockId, data, level, tellMaster1)为block创建BlockInfo并加锁使其不能被其他线程访问;2)按照block的存储级别:useMemory, useOffHeap, useDisk进... 阅读全文
posted @ 2014-08-20 16:27 瞌睡中的葡萄虎 阅读(1189) 评论(0) 推荐(0) 编辑

2014年8月15日 #

摘要: 查看: date -R+0800修改:sudo rm -rf /etc/localtimesudo cp /usr/share/zoneinfo/America/Los_Angeles /etc/localtimesudo cp /usr/share/zoneinfo/Asia/Hong_Kong ... 阅读全文
posted @ 2014-08-15 15:34 瞌睡中的葡萄虎 阅读(559) 评论(0) 推荐(0) 编辑

2014年8月14日 #

摘要: 一、集群启动过程--启动Master$SPARK_HOME/sbin/start-master.shstart-master.sh脚本关键内容:spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MAST... 阅读全文
posted @ 2014-08-14 16:54 瞌睡中的葡萄虎 阅读(1122) 评论(0) 推荐(0) 编辑

摘要: ARRAY一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ... 阅读全文
posted @ 2014-08-14 13:55 瞌睡中的葡萄虎 阅读(541) 评论(0) 推荐(0) 编辑

摘要: Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:将属于以的形式序列化到文件中;该类型的文件存储略大于TEXTFILE类型;3、RCFile:面向列的文件格式。遵循“先按列划分再按行划分”的理念。在查询过程中,... 阅读全文
posted @ 2014-08-14 13:33 瞌睡中的葡萄虎 阅读(2817) 评论(0) 推荐(0) 编辑

上一页 1 ··· 6 7 8 9 10 11 12 13 14 15 下一页