07 2020 档案
摘要:汽车产业政策真的失败么 2020-7-27 对比高铁的成功,很多人说汽车产业政策是失败的,市场换技术,没有换来核心技术。 个人看法,汽车产业政策总体是来说是成功的,现在已经有几个厂商杀出重围,培养了自己的研发体系,供应商体系,产品在汽车市场占据了一席之地,后续随着汽车的消费的理性化,国产车的份额会进
阅读全文
摘要:MySQL 对window函数执行sum函数疑似Bug 使用MySql的窗口函数统计数据时,发现一个小的问题,与大家一起探讨下。 环境配置: mysql-installer-community-8.0.20.0 问题点:在sum对window函数执行时,如果有重复数据,会直接把相同的数据相加,并不是
阅读全文
摘要:Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf sp
阅读全文
摘要:Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用,两者的区别和应用场景有什么不同。 我们以下面的例子比较下两者的不同。 from pyspark.sql import SparkSession
阅读全文
摘要:Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据
阅读全文
摘要:1. 背景描述和需求 数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算。 接收程序部署在Docker中,主机不在Hadoop集群上。与Spark集群网络互通。 需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker
阅读全文
摘要:Spark 版本配套表 名称 版本 说明 Spark spark-2.3.0-bin-hadoop2.7 Spark mongo-java-driver-3.5.0.jar 3.5 Mongo驱动 mongo-spark-connector_2.11-2.3.1.jar 2.3 Mongo conn
阅读全文
摘要:HDFS 文件操作命令 注,其实常用命令不用网上搜,和linux下的命令很类似,触类旁通,直接在linux 上 hadoop fs 看一下就行了,不需要刻意去记 我把 linux 上的 help 列举下,方便直接看吧,hdfs dfs 与 hadoop fs 效果一样 常用的就是 hdfs dfs
阅读全文
摘要:pandas、spark计算相关性系数速度对比 相关性计算有三种算法:pearson、spearman,kenall。 在pandas库中,对一个Dataframe,可以直接计算这三个算法的相关系数correlation,方法为:data.corr() 底层是依赖scipy库的算法。 为了提升计算速
阅读全文