上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 37 下一页
摘要: spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文
posted @ 2019-01-09 17:42 匠人先生 阅读(3433) 评论(0) 推荐(2)
摘要: spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行insert overwrite table流程: 1 创建临时目录,比如 .hive-staging_hiv 阅读全文
posted @ 2019-01-09 15:05 匠人先生 阅读(2406) 评论(0) 推荐(1)
摘要: Ordinary Least Square 最小二乘法 提到最小二乘法要先提到拟合,拟合(Fitting)是数值分析(Numerical Analysis)的基础工具之一,拟合中最简单的是一元函数(function of one variable)拟合,一元函数拟合(即二维平面)分为直线拟合(一元一 阅读全文
posted @ 2019-01-03 23:35 匠人先生 阅读(1181) 评论(0) 推荐(1)
摘要: Machine Learning 机器学习 分类 Classification (分类) Regression (回归) Clustering (聚类) Dimensionality reduction (降维) Supervised Learning 监督学习 已有样本数据(TrainingSet 阅读全文
posted @ 2019-01-03 22:25 匠人先生 阅读(232) 评论(0) 推荐(1)
摘要: 计算MA和EMA通用方法 def getAverageArray(datas : Array[Double], period : Int, maType : MaType = MaType.Ma, weight : Double = 2.0) : ArrayBuffer[Double] = { va 阅读全文
posted @ 2019-01-02 15:41 匠人先生 阅读(1067) 评论(0) 推荐(1)
摘要: 一 场景分析 定位分析广泛应用,比如室外基站定位,室内蓝牙beacon定位,室内wifi探针定位等,实现方式是三点定位 Trilateration 理想情况 这种理想情况要求3个基站‘同时’采集‘准确’的距离信息, 实际情况 3个基站采集数据的时间是分开的; 采集数据的距离不准确; 解决方法是: 增 阅读全文
posted @ 2018-12-29 13:26 匠人先生 阅读(551) 评论(0) 推荐(0)
摘要: 一 场景分析 用户行为分析应用的场景很多,像线上网站访问统计,线下客流分析(比如图像人脸识别、wifi探针等),比较核心的指标有几个: PV | UV | SD | SC 指标说明: PV(Page View):网站浏览量或者商场门店的访问量UV(Unique Visitor):独立访客数,即去重后 阅读全文
posted @ 2018-12-29 12:18 匠人先生 阅读(924) 评论(0) 推荐(1)
摘要: spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始 阅读全文
posted @ 2018-12-28 20:55 匠人先生 阅读(8139) 评论(0) 推荐(5)
摘要: spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序,具体是如何实现的?来看代码: org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sor 阅读全文
posted @ 2018-12-28 20:07 匠人先生 阅读(1270) 评论(0) 推荐(0)
摘要: scala 官方地址 https://www.scala-lang.org/ 本文尽可能包含了一些主要的java和scala在编程实践时的显著差异,展现scala的代码的简洁优雅;scala通吃<面向对象编程Object Oriented Programming>和<函数式编程Functional 阅读全文
posted @ 2018-12-28 19:35 匠人先生 阅读(615) 评论(0) 推荐(0)
上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 37 下一页