摘要: 1.Hive相关 脚本导数据,并设置运行队列 将毫秒转换为日期 对值类型为JSON的数据进行解析,如下就是一个字段data为json类型,其中的type代表日志类型,查询搜索日志。 JSONArray类型解析 表格有3个字段(asrtext array, asraudiourl string) se 阅读全文
posted @ 2015-08-28 16:37 春文秋武 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 1.变量 类变量紧接在类名后面定义,相当于java和c++的static变量 实例变量在init里定义,相当于java和c++的普通变量 2.日期 #coding:utf-8 import time import datetime #日期格式化,time.strftime(format[, t]), 阅读全文
posted @ 2015-08-28 15:57 春文秋武 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 1.介绍Spark是基于Hadoop的大数据处理框架,相比较MapReduce,Spark对数据的处理是在本地内存中进行,中间数据不需要落地,因此速度有很大的提升。而MapReduce在map阶段和Reduce阶段后都需要文件落地,对于连续的数据处理,就需要写多个MapReduce Job接力执行。... 阅读全文
posted @ 2015-08-28 15:04 春文秋武 阅读(412) 评论(0) 推荐(0) 编辑