Spark - 随笔分类 - 匠人先生

大叔问题定位分享（46）spark2.4升级3.1后执行spark-sql报错

摘要：背景 2个节点分别升级spark版本，从2.4升级到3.1，升级后一个节点执行spark-sql正常，另一个节点执行报错，报错信息如下： spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa 阅读全文

posted @ 2022-05-19 16:51 匠人先生阅读(1003) 评论(0) 推荐(0)

大叔经验分享（106）Impala读取parquet时间字段时区偏移问题

摘要：parquet文件中的时间字段，在hive和spark-sql中读取正常，在impala中读取会偏移8个小时（少），经测试结果如下：一不修改impala配置 1 由spark或hive写入parquet spark和hive读取正常 impala读取偏移8小时（少），需要手工偏移 from_un 阅读全文

posted @ 2020-06-08 20:44 匠人先生阅读(1287) 评论(0) 推荐(0)

大叔经验分享（86）hive和mysql数据互导

摘要：hive和mysql数据互导，首先想到的是sqoop，并且可以和调度框架（比如oozie等）配合配置定时任务，还有一种更简单的方式是通过spark-sql： CREATE OR REPLACE TEMPORARY VIEW tmp_tbl_test USING org.apache.spark.sq 阅读全文

posted @ 2019-10-10 11:43 匠人先生阅读(637) 评论(0) 推荐(0)

大叔经验分享（84）spark sql中设置hive.exec.max.dynamic.partitions无效

摘要：spark 2.4 spark sql中执行 set hive.exec.max.dynamic.partitions=10000; 后再执行sql依然会报错： org.apache.hadoop.hive.ql.metadata.HiveException: Number of dynamic p 阅读全文

posted @ 2019-10-03 00:33 匠人先生阅读(7576) 评论(0) 推荐(1)

大叔经验分享（78）hive查询报错NoViableAltException

摘要：Hive或spark中执行sql字符常量包含;时会报错，比如 select instr('abc;abc', ';'); 报错 NoViableAltException(-1@[147:1: selectExpression : ( expression | tableAllColumns );]) 阅读全文

posted @ 2019-07-30 20:10 匠人先生阅读(6367) 评论(0) 推荐(0)

大数据基础之Oozie（4）oozie使用的spark版本升级

摘要：oozie默认使用的spark是1.6，一直没有升级，如果想用最新的2.4，需要自己手工升级首先看当前使用的spark版本的jar # oozie admin -oozie http://$oozie_server:11000/oozie -shareliblist # oozie admin - 阅读全文

posted @ 2019-07-04 15:01 匠人先生阅读(790) 评论(0) 推荐(0)

大叔经验分享（65）spark读取不到hive表

摘要：spark 2.4.3 spark读取hive表，步骤： 1）hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2）enableHiveSupport SparkSession.builder.enableHiveSupport().getOrCreate 阅读全文

posted @ 2019-06-01 14:05 匠人先生阅读(5373) 评论(3) 推荐(1)

大叔经验分享（60）hive和spark读取kudu表

摘要：从impala中创建kudu表之后，如果想从hive或spark sql直接读取，会报错： Caused by: java.lang.ClassNotFoundException: com.cloudera.kudu.hive.KuduStorageHandler at java.net.URLCl 阅读全文

posted @ 2019-05-22 18:06 匠人先生阅读(5431) 评论(0) 推荐(1)

大数据基础之Kudu（4）spark读写kudu

摘要：spark2.4.3+kudu1.9 1 批量读 val df = spark.read.format("kudu") .options(Map("kudu.master" -> "master:7051", "kudu.table" -> "impala::test_db.test_table") 阅读全文

posted @ 2019-05-15 10:43 匠人先生阅读(5257) 评论(0) 推荐(0)

大叔经验分享（55）spark连接kudu报错

摘要：spark-2.4.2kudu-1.7.0 开始尝试 1）自己手工将jar加到classpath spark-2.4.2-bin-hadoop2.6+kudu-spark2_2.11-1.7.0-cdh5.16.1.jar # bin/spark-shell scala> val df = spar 阅读全文

posted @ 2019-05-09 19:44 匠人先生阅读(3083) 评论(0) 推荐(0)

大叔经验分享（39）spark cache unpersist级联操作

摘要：问题：spark中如果有两个DataFrame（或者DataSet），DataFrameA依赖DataFrameB，并且两个DataFrame都进行了cache，将DataFrameB unpersist之后，DataFrameA的cache也会失效，官方解释如下： When invalidatin 阅读全文

posted @ 2019-03-13 17:52 匠人先生阅读(1630) 评论(0) 推荐(0)

大数据基础之Benchmark（2）TPC-DS

摘要：tpc 官方：http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminat 阅读全文

posted @ 2019-03-05 22:55 匠人先生阅读(6672) 评论(1) 推荐(1)

大数据基础之Hive（5）hive on spark

摘要：hive 2.3.4 on spark 2.4.0 Hive on Spark provides Hive with the ability to utilize Apache Spark as its execution engine. set hive.execution.engine=spar 阅读全文

posted @ 2019-03-05 18:42 匠人先生阅读(4219) 评论(0) 推荐(0)

大叔经验分享（35）lzo格式支持

摘要：建表语句 CREATE EXTERNAL TABLE `my_lzo_table`(`something` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS INPUTFORMAT 'com.hadoop.mapred.D 阅读全文

posted @ 2019-02-26 18:24 匠人先生阅读(2148) 评论(0) 推荐(1)

大叔经验分享（34）hive中文注释乱码

摘要：在hive中查看表结构时中文注释乱码，分为两种情况，一种是desc $table，一种是show create table $table 1 数据库字符集检查 mysql> show variables like '%char%';mysql> show create table COLUMNS_ 阅读全文

posted @ 2019-02-26 10:48 匠人先生阅读(810) 评论(0) 推荐(1)

大数据基础之Spark（9）spark部署方式yarn/mesos

摘要：1 下载解压 https://spark.apache.org/downloads.html $ wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz $ tar xvf spark 阅读全文

posted @ 2019-02-25 18:37 匠人先生阅读(1045) 评论(0) 推荐(1)

大叔问题定位分享（27）spark中rdd.cache

摘要：spark 2.1.1 spark应用中有一些task非常慢，持续10个小时，有一个task日志如下： 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExe 阅读全文

posted @ 2019-01-25 18:33 匠人先生阅读(1726) 评论(0) 推荐(0)

大叔经验分享（24）hive metastore的几种部署方式

摘要：hive及其他组件（比如spark、impala等）都会依赖hive metastore，依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/，阅读全文

posted @ 2019-01-21 18:07 匠人先生阅读(1274) 评论(0) 推荐(1)

大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%

摘要：spark 2.1.1 系统中希望监控spark on yarn任务的执行进度，但是监控过程发现提交任务之后执行进度总是10%，直到执行成功或者失败，进度会突然变为100%，很神奇，下面看spark on yarn任务提交过程： spark on yarn提交任务时会把mainClass修改为Cl 阅读全文

posted @ 2019-01-10 16:18 匠人先生阅读(2391) 评论(0) 推荐(0)

大数据基础之Spark（8）Spark中Join实现原理

摘要：spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文

posted @ 2019-01-09 17:42 匠人先生阅读(3455) 评论(0) 推荐(2)

Thinking in BigData

匠人先生

随笔分类 - Spark

公告