上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 22 下一页

2018年8月30日

摘要: hive> select * from account limit 10;OKaccount.accountname account.accid account.platid account.dateid account.createtime1004210 1004210 6 20180116 20 阅读全文

posted @ 2018-08-30 15:49 打杂滴 阅读(2490) 评论(0) 推荐(0) 编辑


2018年8月23日

摘要: CPU利用率 [root@host ~]# cat /proc/cpuinfo |grep "processor"|wc -l4 查看本机的核心数 最常用CPU监测工具是TOP,当然TOP输出是一个瞬间值,如果想获取精确的数据,需要持续关注一段时间。 [root@host ~]# top top - 阅读全文

posted @ 2018-08-23 15:00 打杂滴 阅读(156) 评论(0) 推荐(0) 编辑


2018年8月22日

摘要: Spark sql 对SQL语句的处理,先将SQL语句进行解析(parse)形成一个tree,然后使用Rule对Tree进行绑定,优化等处理过程,通过模式匹配对不同类型的节点采用不同操作。查询优化器是Catalyst,它负责处理查询语句的解析,绑定,优化和生成物理计划等过程,Catalyst是Spa 阅读全文

posted @ 2018-08-22 10:09 打杂滴 阅读(518) 评论(0) 推荐(0) 编辑

摘要: dataframe以RDD为基础的分布式数据集,与RDD的区别是,带有Schema元数据,即DF所表示的二维表数据集的每一列带有名称和类型,好处:精简代码;提升执行效率;减少数据读取; 如果不配置spark.deploy.recoveryMode选项为ZOOKEEPER,那么集群的所有运行数据在Ma 阅读全文

posted @ 2018-08-22 09:53 打杂滴 阅读(314) 评论(0) 推荐(0) 编辑


2018年8月17日

摘要: 数据本地性 数据计算尽可能在数据所在的节点上运行,这样可以减少数据在网络上的传输,毕竟移动计算比移动数据代价小很多。进一步看,数据如果在运行节点的内存中,就能够进一步减少磁盘的I/O的传输。在spark中,数据本地性优先级从高到低为PROCESS_LOCAL>NODE_LOCAL>NO_PREF>R 阅读全文

posted @ 2018-08-17 13:26 打杂滴 阅读(4370) 评论(0) 推荐(0) 编辑


2018年8月16日

摘要: spark 运行架构基本由三部分组成,包括SparkContext(驱动程序),ClusterManager(集群资源管理器)和Executor(任务执行过程)组成。 其中SparkContext负责与ClusterManager通信,进行资源的申请.任务的分配.监控等,负责作业执行的声明周期管理。 阅读全文

posted @ 2018-08-16 10:51 打杂滴 阅读(712) 评论(0) 推荐(0) 编辑


2018年8月15日

摘要: spark运行结构图如下: spark基本概念 应用程序(application):用户编写的spark应用程序,包含驱动程序(Driver)和分布在集群中多个节点上运行的Executor代码,在执行过程中由一个或者多个作业组成。 驱动程序(dirver):spark中Driver即运行上述Appl 阅读全文

posted @ 2018-08-15 10:26 打杂滴 阅读(418) 评论(0) 推荐(0) 编辑


2018年8月14日

摘要: first count reduce collect take top takeOrdered aggregate fold lookup countByKey foreach foreachPartition sortBy 阅读全文

posted @ 2018-08-14 16:06 打杂滴 阅读(91) 评论(0) 推荐(0) 编辑

摘要: cache persist checkpoint 阅读全文

posted @ 2018-08-14 16:03 打杂滴 阅读(92) 评论(0) 推荐(0) 编辑

摘要: partitionBy mapValues flatMapValues combineByKey scala> aa.collect res77: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) scala> val mapRDD=aa.map(x 阅读全文

posted @ 2018-08-14 16:02 打杂滴 阅读(150) 评论(0) 推荐(0) 编辑


上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 22 下一页

Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes