2015年10月23日
摘要: 如下命令都是用root身份安装,或者在命令前加上sudo采用yum安装方式安装yum install mysql #安装mysql客户端yum install mysql-server #安装mysql服务端判断MYSQL是否安装好:chkconfig --list|grep mysql启动mysq... 阅读全文
posted @ 2015-10-23 22:40 松伯 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 一、由于具有多张宽表且字段较多,每个宽表数据大概为4000万条,根据业务逻辑拼接别名,并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列,根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询,如果要使用SparkSQL进行分页查询,需要增加序号列,那么就在... 阅读全文
posted @ 2015-10-23 16:43 松伯 阅读(5693) 评论(0) 推荐(1) 编辑
摘要: Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引,每个Partition... 阅读全文
posted @ 2015-10-23 16:10 松伯 阅读(1525) 评论(0) 推荐(0) 编辑
摘要: Spark在任务提交时,主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG,并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS... 阅读全文
posted @ 2015-10-23 00:21 松伯 阅读(568) 评论(0) 推荐(0) 编辑