2018 年 11月随笔档案 - 大葱拌豆腐

Hive和SparkSQL：基于 Hadoop 的数据仓库工具

摘要：Hive 前言 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，将类 SQL 语句转换为 MapReduce 任务执行。数据组织格式下面是直接存储在HDFS上的数据组织方式 Table：每个表存储在HDFS上的一个目录阅读全文

posted @ 2018-11-29 23:37 大葱拌豆腐阅读(1526) 评论(0) 推荐(0) 编辑

Spark配置参数

摘要：以下是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置阅读全文

posted @ 2018-11-29 23:15 大葱拌豆腐阅读(536) 评论(0) 推荐(0) 编辑

spark on yarn任务提交缓慢解决

摘要：1.为什么要让运行时Jar可以从yarn端访问spark2以后，原有lib目录下的大JAR包被分散成多个小JAR包，原来的spark-assembly-*.jar已经不存在每一次我们运行的时候，如果没有指定 spark.yarn.archive or spark.yarn.jars Spark将在阅读全文

posted @ 2018-11-29 22:54 大葱拌豆腐阅读(2285) 评论(0) 推荐(0) 编辑

spark.yarn.jar和spark.yarn.archive的使用

摘要：启动Spark任务时，在没有配置spark.yarn.archive或者spark.yarn.jars时，会看到不停地上传jar非常耗时；使用spark.yarn.archive可以大大地减少任务的启动时间，整个处理过程如下 1.在本地创建zip文件 2.上传至HDFS并更改权限 3.配置spar 阅读全文

posted @ 2018-11-29 22:39 大葱拌豆腐阅读(1714) 评论(0) 推荐(0) 编辑

利用SparkLauncher 类以JAVA API 编程的方式提交Spark job

摘要：一.环境说明和使用软件的版本说明: hadoop-version:hadoop-2.9.0.tar.gz spark-version:spark-2.2.0-bin-hadoop2.7.tgz java-version:jdk1.8.0_151 集群环境：单机伪分布式环境。二.适用背景在学习Sp 阅读全文

posted @ 2018-11-25 16:08 大葱拌豆腐阅读(1764) 评论(0) 推荐(1) 编辑

spark提交任务的三种的方法

摘要：在学习Spark过程中，资料中介绍的提交Spark Job的方式主要有三种：第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交，官网和大多数参考资料都是已这种方式提交的，提交命令示例如下：./spark-submit --class com.learn.s 阅读全文

posted @ 2018-11-21 23:38 大葱拌豆腐阅读(7962) 评论(0) 推荐(0) 编辑

yarn client中的一个BUG的修复

摘要：org.apache.spark.deploy.yarn.Client.scala中的monitorApplication方法：其中： yarn state为finished的时候的状态细分不够明确，将原来的 reportLauncherState(SparkAppHandle.State.FAI 阅读全文

posted @ 2018-11-21 23:30 大葱拌豆腐阅读(897) 评论(0) 推荐(0) 编辑

Hive metastore表结构设计分析

摘要：今天总结下，Hive metastore的结构设计。什么是metadata呢，对于它的描述，可以理解为数据的数据，主要是描述数据的属性的信息。它是用来支持如存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录。为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数阅读全文

posted @ 2018-11-18 16:27 大葱拌豆腐阅读(510) 评论(0) 推荐(0) 编辑

Hbase预分区种子生成

摘要：提前生成Hbase预分区种子，在创建Hbase表时也进行相应的预分区，同时设置预分区的个数，预分区的范围对应Hbase监控页面的Region Server的start key与End key，从而使数据能够均匀的分布于各个Region中。阅读全文

posted @ 2018-11-18 11:30 大葱拌豆腐阅读(275) 评论(0) 推荐(0) 编辑

Spark资源调度

摘要：一：任务调度和资源调度的区别: 任务调度是指通过DAGScheduler，TaskScheduler，SchedulerBackend完成的job的调度资源调度是指应用程序获取资源的调度，他是通过schedule方法完成的二：资源调度解密因为master负责资源管理和调度，所以资源调度的方法s 阅读全文

posted @ 2018-11-15 23:26 大葱拌豆腐阅读(402) 评论(0) 推荐(0) 编辑

Spark Worker启动Driver和Executor工作流程

摘要：二：Spark Worker启动Driver源码解析补充说明：如果Cluster上的driver启动失败或者崩溃的时候，如果driverDescription的supervise设置的为true的时候，会自动重启，由worker负责它的重新启动。 DriverRunner对象 DriverRunn 阅读全文

posted @ 2018-11-15 23:04 大葱拌豆腐阅读(2589) 评论(0) 推荐(0) 编辑

获取spark-submit --files的文件内容

摘要：参考https://community.hortonworks.com/questions/9265/how-can-i-add-configuration-files-to-a-spark-job-r.html 我的总结（以--files README.md为例）：方法1：按照上面所说，--fil 阅读全文

posted @ 2018-11-15 12:41 大葱拌豆腐阅读(7727) 评论(0) 推荐(1) 编辑

JVM虚拟机选项：Xms Xmx PermSize MaxPermSize区别（转）

摘要：java虽然是自动回收内存，但是应用程序，尤其服务器程序最好根据业务情况指明内存分配限制。否则可能导致应用程序宕掉。举例说明含义：-Xms128m表示JVM Heap(堆内存)最小尺寸128MB，初始分配-Xmx512m表示JVM Heap(堆内存)最大允许的尺寸256MB，按需分配。说明：如果-X 阅读全文

posted @ 2018-11-15 11:43 大葱拌豆腐阅读(630) 评论(0) 推荐(1) 编辑

在Java应用中通过SparkLauncher启动Spark任务

摘要：本博客内容基于Spark2.2版本，在阅读文章并想实际操作前，请确保你有：老版本老版本任务提交是基于启动本地进程，执行脚本spark-submit xxx ** 的方式做的。其中一个关键的问题就是获得提交Spark任务的Application-id，因为这个id是跟任务状态的跟踪有关系的。如果你阅读全文

posted @ 2018-11-14 17:01 大葱拌豆腐阅读(6954) 评论(0) 推荐(0) 编辑

通过thriftserver的beeline/jdbc等方式连接到SparkSQL

摘要：thriftserver和beeline的简单配置和使用启动thriftserver: 默认端口是10000 ，可以修改 $ ./${SPARK_HOME}/sbin/start-thriftserver.sh --master local[2] --jars ~/software/mysql-co 阅读全文

posted @ 2018-11-08 10:43 大葱拌豆腐阅读(2519) 评论(0) 推荐(0) 编辑

Spark：java.net.BindException: Address already in use: Service 'SparkUI' failed after 16 retries!

摘要：Spark多任务提交运行时候报错。错误原因：每一个Spark任务都会占用一个SparkUI端口，默认为4040，如果被占用则依次递增端口重试。但是有个默认重试次数，为16次。16次重试都失败后，会放弃该任务的运行。解决方法阅读全文

posted @ 2018-11-07 20:05 大葱拌豆腐阅读(2903) 评论(0) 推荐(0) 编辑

Spark Sql之ThriftServer和Beeline的使用

摘要：概述 ThriftServer相当于service层，而ThriftServer通过Beeline来连接数据库。客户端用于连接JDBC的Server的一个工具步骤 1：启动metastore服务 2：连接 3：Spark编译时版本选择和Hive的关系只要保证HDFS\MySQL没有问题，基本上S 阅读全文

posted @ 2018-11-07 19:30 大葱拌豆腐阅读(2773) 评论(0) 推荐(0) 编辑

Spark SQL读取Oracle的number类型的数据时精度丢失问题

摘要：Spark SQL读取数据Oracle的数据时，发现number类型的字段在读取的时候精度丢失了，使用的spark版本是Spark2.1.0的版本，竟然最后经过排查和网上查资料发现是一个bug。在Spark2.1.2以上的版本解决了这个问题。 number类型的数据通过spark sql的jdbc读阅读全文

posted @ 2018-11-02 18:56 大葱拌豆腐阅读(2008) 评论(0) 推荐(0) 编辑

11 2018 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论