摘要: 数据仓库工程师-战略(J11666)工作地点:北京市 职位类别:技术类 招聘人数:若干 职位描述:1. 负责业务相关数据指标的计算挖掘;2. 负责数据建模以及数据仓库应用产品的设计和开发;3. 负责数据仓库ETL流程的优化及解决ETL相关技术问题。任职要求:1、本科及... 阅读全文
posted @ 2016-10-14 23:06 yuerspring 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1 hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;... 阅读全文
posted @ 2016-10-14 22:35 yuerspring 阅读(197) 评论(0) 推荐(0) 编辑
摘要: hbase 的特点是什么 (1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hba... 阅读全文
posted @ 2016-10-14 22:33 yuerspring 阅读(283) 评论(0) 推荐(0) 编辑
摘要: (1) storm是一个进程常驻内存的、分布式的,对数据实时流式处理框架,不同于MR的批处理和spark streaming的微批处理,storm实现了对数据处理的毫秒级延迟。它的数据源被称为SPOUT,数据处理流程被称为BOLT(2)storm一般应用于对数据的处理... 阅读全文
posted @ 2016-10-14 22:30 yuerspring 阅读(1232) 评论(0) 推荐(0) 编辑
摘要: GC机制:分配对象使用new关键字;释放对象时,只要将对象所有引用赋值为null,让程序不能够再访问到这个对象,我们称该对象为"不可达的".GC 将负责回收所有"不可达"对象的内存空间。jvm 调优方法:1.最基本的建议就是尽早释放无用对象的引用。大多数程序员在使用临... 阅读全文
posted @ 2016-10-14 22:23 yuerspring 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1.在Hadoop中定义的主要公用InputFormat中,默认是哪一个?(A) A、 TextInputFormatB、 KeyValueInputFormatC、 SequenceFileInputFormat 1. 下面哪个程序负责 HDFS 数据存储?(C)... 阅读全文
posted @ 2016-10-14 22:19 yuerspring 阅读(238) 评论(0) 推荐(0) 编辑
摘要: Redis 个人理解和常用命令以及应用场景redis ,启动服务器端 :redis-server.exe redis.confRedis 启动客户端redis-cli.exe -h 127.0.0.1 -p 6379Redis 下载 :https://github.c... 阅读全文
posted @ 2016-10-14 15:16 yuerspring 阅读(120) 评论(0) 推荐(0) 编辑