2018 年 1月 9 日随笔档案 - Mars.wang

2018年1月9日

摘要： -- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(ABC, BCD) -- 相乘 val rdd=sc.parallelize(List(1,2,... 阅读全文

posted @ 2018-01-09 17:58 Mars.wang 阅读(1559) 评论(0) 推荐(0) 编辑

Spark之从hdfs读取数据

摘要： var hv=sc.textFile("hdfs://192.168.15.30:8020/user/hive/warehouse/ycapp.db/appindex") var hivedata=hv.map(_.split("\t")).map(e => ( e(1), e(2),e(0).toInt)) (String, String, String) = (9,2017-07-26,al... 阅读全文

posted @ 2018-01-09 17:44 Mars.wang 阅读(10462) 评论(2) 推荐(0) 编辑

Spark之权威指南经典案例

摘要： hadoop权威指南上有一个求历史最高温度的经典案例，源数据如下： -- sample.txt0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+999999999 阅读全文

posted @ 2018-01-09 17:40 Mars.wang 阅读(387) 评论(0) 推荐(0) 编辑

Spark之SparkSql

摘要： -- Spark SQL 以编程方式指定模式 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val employee = sc.textFile("/root/wangbin/employee.txt") 1201,satish,25 1202,krishna,28 1203,amith,39 1204,javed,23 120... 阅读全文

posted @ 2018-01-09 17:37 Mars.wang 阅读(226) 评论(0) 推荐(0) 编辑

Spark之json数据处理

摘要： -- 默认情况下，SparkContext对象在spark-shell启动时用namesc初始化。使用以下命令创建SQLContext。 val sqlcontext = new org.apache.spark.sql.SQLContext(sc) -- employee.json-将此文件放在currentscala>指针所在的目录中。 { {"id" : "1201", "name"... 阅读全文

posted @ 2018-01-09 17:34 Mars.wang 阅读(6831) 评论(0) 推荐(0) 编辑

hadoop之hbase基本操作

摘要： hbase shell 进入hbase命令行 list 显示HBASE表 status 系统上运行的服务器的细节和系统的状态 version 返回HBase系统使用的版本 table_help 引导如何使用表引用的命令 whoami 返回当前HBase用户 # 建表 create 'base_tes 阅读全文

posted @ 2018-01-09 17:30 Mars.wang 阅读(654) 评论(0) 推荐(0) 编辑

hadoop之hive集合数据类型

摘要：除了string，boolean,date等基本数据类型之外,hive还支持三种高级数据类型： 1.ARRAY ARRAY类型是由一系列相同数据类型的元素组成，这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits，它是由['apple','orange','mango']组成，那么阅读全文

posted @ 2018-01-09 17:16 Mars.wang 阅读(3622) 评论(0) 推荐(0) 编辑

hadoop之hive&hbase互操作

摘要：大家都知道，hive的SQL操作非常方便，但是查询过程中需要启动MapReduce,无法做到实时响应。 hbase是hadoop家族中的分布式数据库，与传统关系数据库不同，它底层采用列存储格式，扩展性极高，响应时间也很快，当业务变化大时，可以作为mysql的补充。幸运的是作为hadoop家族中比较阅读全文

posted @ 2018-01-09 17:09 Mars.wang 阅读(208) 评论(0) 推荐(0) 编辑

hadoop之hive基本操作

摘要： -- 清空表中的数据，保留表结构 truncate table tmp_userid; insert into tmp_userid values('123456'); -- 搜索库或表支持正则表达式 show tables 'sa*'; show tables in basename; -- 创建阅读全文

posted @ 2018-01-09 16:57 Mars.wang 阅读(598) 评论(0) 推荐(0) 编辑

hadoop之hive高级操作

摘要：在输出结果较多，需要输出到文件中时，可以在hive CLI之外执行hive -e "sql" > output.txt操作但当SQL语句太长或太多时，这种方式不是很方便，可以考虑将SQL语句存为sql.hql文件中，然后执行 hive -f sql.hql >output.txt操作如果是多个语阅读全文

posted @ 2018-01-09 16:50 Mars.wang 阅读(951) 评论(0) 推荐(0) 编辑

hadoop之文件管理基本操作

摘要： # 格式化hdfs hadoop namenode -format # 查看hadoop下的文件夹 hadoop fs -ls # 创建hdfs文件夹 hadoop fs -mkdir /user/input # 将本地文件file.txt 复制到新建文件夹,file->hdfs hadoop fs 阅读全文

posted @ 2018-01-09 16:40 Mars.wang 阅读(885) 评论(1) 推荐(0) 编辑