2015 年 10月 23 日随笔档案 - 松伯

2015年10月23日

摘要：如下命令都是用root身份安装，或者在命令前加上sudo采用yum安装方式安装yum install mysql #安装mysql客户端yum install mysql-server #安装mysql服务端判断MYSQL是否安装好:chkconfig --list|grep mysql启动mysq... 阅读全文

posted @ 2015-10-23 22:40 松伯阅读(237) 评论(0) 推荐(0) 编辑

使用SparkSQL实现多线程分页查询并写入文件

摘要：一、由于具有多张宽表且字段较多，每个宽表数据大概为4000万条，根据业务逻辑拼接别名，并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列，根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询，如果要使用SparkSQL进行分页查询，需要增加序号列，那么就在... 阅读全文

posted @ 2015-10-23 16:43 松伯阅读(5693) 评论(0) 推荐(1) 编辑

Hive架构及Hive On Spark

摘要： Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引，每个Partition... 阅读全文

posted @ 2015-10-23 16:10 松伯阅读(1525) 评论(0) 推荐(0) 编辑

Spark作业调度

摘要： Spark在任务提交时，主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG，并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS... 阅读全文

posted @ 2015-10-23 00:21 松伯阅读(568) 评论(0) 推荐(0) 编辑