摘要: -- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(ABC, BCD) -- 相乘 val rdd=sc.parallelize(List(1,2,... 阅读全文
posted @ 2018-01-09 17:58 Mars.wang 阅读(1559) 评论(0) 推荐(0) 编辑
摘要: var hv=sc.textFile("hdfs://192.168.15.30:8020/user/hive/warehouse/ycapp.db/appindex") var hivedata=hv.map(_.split("\t")).map(e => ( e(1), e(2),e(0).toInt)) (String, String, String) = (9,2017-07-26,al... 阅读全文
posted @ 2018-01-09 17:44 Mars.wang 阅读(10462) 评论(2) 推荐(0) 编辑
摘要: hadoop权威指南上有一个求历史最高温度的经典案例,源数据如下: -- sample.txt0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+999999999 阅读全文
posted @ 2018-01-09 17:40 Mars.wang 阅读(387) 评论(0) 推荐(0) 编辑
摘要: -- Spark SQL 以编程方式指定模式 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val employee = sc.textFile("/root/wangbin/employee.txt") 1201,satish,25 1202,krishna,28 1203,amith,39 1204,javed,23 120... 阅读全文
posted @ 2018-01-09 17:37 Mars.wang 阅读(226) 评论(0) 推荐(0) 编辑
摘要: -- 默认情况下,SparkContext对象在spark-shell启动时用namesc初始化。使用以下命令创建SQLContext。 val sqlcontext = new org.apache.spark.sql.SQLContext(sc) -- employee.json-将此文件放在currentscala>指针所在的目录中。 { {"id" : "1201", "name"... 阅读全文
posted @ 2018-01-09 17:34 Mars.wang 阅读(6831) 评论(0) 推荐(0) 编辑
摘要: hbase shell 进入hbase命令行 list 显示HBASE表 status 系统上运行的服务器的细节和系统的状态 version 返回HBase系统使用的版本 table_help 引导如何使用表引用的命令 whoami 返回当前HBase用户 # 建表 create 'base_tes 阅读全文
posted @ 2018-01-09 17:30 Mars.wang 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 除了string,boolean,date等基本数据类型之外,hive还支持三种高级数据类型: 1.ARRAY ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange','mango']组成,那么 阅读全文
posted @ 2018-01-09 17:16 Mars.wang 阅读(3622) 评论(0) 推荐(0) 编辑
摘要: 大家都知道,hive的SQL操作非常方便,但是查询过程中需要启动MapReduce,无法做到实时响应。 hbase是hadoop家族中的分布式数据库,与传统关系数据库不同,它底层采用列存储格式,扩展性极高,响应时间也很快,当业务变化大时,可以作为mysql的补充。 幸运的是作为hadoop家族中比较 阅读全文
posted @ 2018-01-09 17:09 Mars.wang 阅读(208) 评论(0) 推荐(0) 编辑
摘要: -- 清空表中的数据,保留表结构 truncate table tmp_userid; insert into tmp_userid values('123456'); -- 搜索库或表支持正则表达式 show tables 'sa*'; show tables in basename; -- 创建 阅读全文
posted @ 2018-01-09 16:57 Mars.wang 阅读(598) 评论(0) 推荐(0) 编辑
摘要: 在输出结果较多,需要输出到文件中时,可以在hive CLI之外执行hive -e "sql" > output.txt操作 但当SQL语句太长或太多时,这种方式不是很方便,可以考虑将SQL语句存为sql.hql文件中,然后执行 hive -f sql.hql >output.txt操作 如果是多个语 阅读全文
posted @ 2018-01-09 16:50 Mars.wang 阅读(951) 评论(0) 推荐(0) 编辑
摘要: # 格式化hdfs hadoop namenode -format # 查看hadoop下的文件夹 hadoop fs -ls # 创建hdfs文件夹 hadoop fs -mkdir /user/input # 将本地文件file.txt 复制到新建文件夹,file->hdfs hadoop fs 阅读全文
posted @ 2018-01-09 16:40 Mars.wang 阅读(885) 评论(1) 推荐(0) 编辑