摘要:
oracle表数据量60G,数据条数:58475050提交参数spark-submit --master yarn --deploy-mode client \--class com.xjb.Test \--jars ojdbc5-11.2.0.3.jar ... 阅读全文
摘要:
spark中执行任务会显示如下格式的进度:[Stage 4:=========================> (12 + 11) / 24]# 这是stage4阶段:## 共有24个task(一个... 阅读全文
摘要:
http://www.cnblogs.com/yurunmiao/p/5195754.html原始读法:lines = sc.textFile("hdfs:///dir/")这样一个block会形成一个partition,对应一个task。优化读法:line... 阅读全文
摘要:
代码:val tbname = "TABLENAME"val df = spark.read .format("jdbc") .option("driver", "oracle.jdbc.driver.OracleDriver") .option("u... 阅读全文
摘要:
从kafka获取到的数据类型:org.apache.spark.streaming.dstream.InputDStream[org.apache.kafka.clients.consumer.ConsumerRecord[String, String]] ... 阅读全文
摘要:
spark默认会使用基于derby数据库存储元数据的hive,数据文件存储位置由spark.sql.warehouse.dir参数指定(默认为当前目录)。比如当我们在/spark/目录下调用spark-shell,并且用Dataset的saveAsTable... 阅读全文
摘要:
说一下默认的配置saveAsTable方法会以parquet文件的形式存储数据,但是由于spark和hive使用的parquet标准不一致(对decimal类型存储的时候,具体和精度有关如DecimalType(10,2)会报错而DecimalType(38... 阅读全文
摘要:
spark的交叉验证和python sklearn库的交叉验证不太一样,python sklearn库cross_validation用来交叉验证选择模型,然后输出得分,而模型参数的选择同交叉验证是分开的模块。而spark的org.apache.spark.... 阅读全文