随笔分类 -  Spark

摘要:背景 2个节点分别升级spark版本,从2.4升级到3.1,升级后一个节点执行spark-sql正常,另一个节点执行报错,报错信息如下: spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa 阅读全文
posted @ 2022-05-19 16:51 匠人先生 阅读(889) 评论(0) 推荐(0) 编辑
摘要:parquet文件中的时间字段,在hive和spark-sql中读取正常,在impala中读取会偏移8个小时(少),经测试结果如下: 一 不修改impala配置 1 由spark或hive写入parquet spark和hive读取正常 impala读取偏移8小时(少),需要手工偏移 from_un 阅读全文
posted @ 2020-06-08 20:44 匠人先生 阅读(1214) 评论(0) 推荐(0) 编辑
摘要:hive和mysql数据互导,首先想到的是sqoop,并且可以和调度框架(比如oozie等)配合配置定时任务,还有一种更简单的方式是通过spark-sql: CREATE OR REPLACE TEMPORARY VIEW tmp_tbl_test USING org.apache.spark.sq 阅读全文
posted @ 2019-10-10 11:43 匠人先生 阅读(612) 评论(0) 推荐(0) 编辑
摘要:spark 2.4 spark sql中执行 set hive.exec.max.dynamic.partitions=10000; 后再执行sql依然会报错: org.apache.hadoop.hive.ql.metadata.HiveException: Number of dynamic p 阅读全文
posted @ 2019-10-03 00:33 匠人先生 阅读(7373) 评论(0) 推荐(1) 编辑
摘要:Hive或spark中执行sql字符常量包含;时会报错,比如 select instr('abc;abc', ';'); 报错 NoViableAltException(-1@[147:1: selectExpression : ( expression | tableAllColumns );]) 阅读全文
posted @ 2019-07-30 20:10 匠人先生 阅读(6255) 评论(0) 推荐(0) 编辑
摘要:oozie默认使用的spark是1.6,一直没有升级,如果想用最新的2.4,需要自己手工升级 首先看当前使用的spark版本的jar # oozie admin -oozie http://$oozie_server:11000/oozie -shareliblist # oozie admin - 阅读全文
posted @ 2019-07-04 15:01 匠人先生 阅读(768) 评论(0) 推荐(0) 编辑
摘要:spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport SparkSession.builder.enableHiveSupport().getOrCreate 阅读全文
posted @ 2019-06-01 14:05 匠人先生 阅读(5218) 评论(3) 推荐(1) 编辑
摘要:从impala中创建kudu表之后,如果想从hive或spark sql直接读取,会报错: Caused by: java.lang.ClassNotFoundException: com.cloudera.kudu.hive.KuduStorageHandler at java.net.URLCl 阅读全文
posted @ 2019-05-22 18:06 匠人先生 阅读(5357) 评论(0) 推荐(1) 编辑
摘要:spark2.4.3+kudu1.9 1 批量读 val df = spark.read.format("kudu") .options(Map("kudu.master" -> "master:7051", "kudu.table" -> "impala::test_db.test_table") 阅读全文
posted @ 2019-05-15 10:43 匠人先生 阅读(5204) 评论(0) 推荐(0) 编辑
摘要:spark-2.4.2kudu-1.7.0 开始尝试 1)自己手工将jar加到classpath spark-2.4.2-bin-hadoop2.6+kudu-spark2_2.11-1.7.0-cdh5.16.1.jar # bin/spark-shell scala> val df = spar 阅读全文
posted @ 2019-05-09 19:44 匠人先生 阅读(3054) 评论(0) 推荐(0) 编辑
摘要:问题:spark中如果有两个DataFrame(或者DataSet),DataFrameA依赖DataFrameB,并且两个DataFrame都进行了cache,将DataFrameB unpersist之后,DataFrameA的cache也会失效,官方解释如下: When invalidatin 阅读全文
posted @ 2019-03-13 17:52 匠人先生 阅读(1613) 评论(0) 推荐(0) 编辑
摘要:tpc 官方:http://www.tpc.org/ 一 简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminat 阅读全文
posted @ 2019-03-05 22:55 匠人先生 阅读(6470) 评论(1) 推荐(1) 编辑
摘要:hive 2.3.4 on spark 2.4.0 Hive on Spark provides Hive with the ability to utilize Apache Spark as its execution engine. set hive.execution.engine=spar 阅读全文
posted @ 2019-03-05 18:42 匠人先生 阅读(4156) 评论(0) 推荐(0) 编辑
摘要:建表语句 CREATE EXTERNAL TABLE `my_lzo_table`(`something` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS INPUTFORMAT 'com.hadoop.mapred.D 阅读全文
posted @ 2019-02-26 18:24 匠人先生 阅读(2125) 评论(0) 推荐(1) 编辑
摘要:在hive中查看表结构时中文注释乱码,分为两种情况,一种是desc $table,一种是show create table $table 1 数据库字符集 检查 mysql> show variables like '%char%';mysql> show create table COLUMNS_ 阅读全文
posted @ 2019-02-26 10:48 匠人先生 阅读(775) 评论(0) 推荐(1) 编辑
摘要:1 下载解压 https://spark.apache.org/downloads.html $ wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz $ tar xvf spark 阅读全文
posted @ 2019-02-25 18:37 匠人先生 阅读(1015) 评论(0) 推荐(1) 编辑
摘要:spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExe 阅读全文
posted @ 2019-01-25 18:33 匠人先生 阅读(1687) 评论(0) 推荐(0) 编辑
摘要:hive及其他组件(比如spark、impala等)都会依赖hive metastore,依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/, 阅读全文
posted @ 2019-01-21 18:07 匠人先生 阅读(1212) 评论(0) 推荐(1) 编辑
摘要:spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark on yarn任务提交过程: spark on yarn提交任务时会把mainClass修改为Cl 阅读全文
posted @ 2019-01-10 16:18 匠人先生 阅读(2337) 评论(0) 推荐(0) 编辑
摘要:spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文
posted @ 2019-01-09 17:42 匠人先生 阅读(3414) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示