10 2018 档案

摘要:apply 可以理解为注入 unapply unapplySeq 可以理解为提取 apply 与 unapply 虽然名字相近,但是使用起来区别挺大。apply有点像构造函数unapply主要是结合模式匹配进行提取工作unapply 与 unapplySeq的共同点是返回值类型都是Option,区别 阅读全文
posted @ 2018-10-27 16:35 大葱拌豆腐 阅读(462) 评论(0) 推荐(0) 编辑
摘要:val words = *** //在words被定义时取值 lazy val words = *** //在words被首次使用时取值 def words = *** //在每一次words被使用时取值 阅读全文
posted @ 2018-10-27 16:23 大葱拌豆腐 阅读(506) 评论(0) 推荐(0) 编辑
摘要:近期有需求,要根据解析字符串,根据字符串的内容去调用方法。想到的基本就是使用反射。但是基本上能找到的资料,全没有讲scala的反射。只有零星点点的讲解。大部分都是用scala的语法写java反射最后翻了翻scala的官方文档 发现还在实验阶段。一不做二不休,索性两种反射方式都来尝试尝试。其实两种方式 阅读全文
posted @ 2018-10-27 16:21 大葱拌豆腐 阅读(4012) 评论(0) 推荐(1) 编辑
摘要:摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作。 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑 阅读全文
posted @ 2018-10-27 11:59 大葱拌豆腐 阅读(2373) 评论(0) 推荐(0) 编辑
摘要:一、基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑 每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑 阅读全文
posted @ 2018-10-27 10:27 大葱拌豆腐 阅读(4184) 评论(0) 推荐(0) 编辑
摘要:流失预测是个重要的业务,通过预测哪些客户可能取消对服务的订阅来最大限度地减少客户流失。虽然最初在电信行业使用,但它已经成为银行,互联网服务提供商,保险公司和其他垂直行业的通用业务。 预测过程是大规模数据的驱动,并且经常结合使用先进的机器学习技术。在本篇文章中,我们将看到通常使用的哪些类型客户数据,对 阅读全文
posted @ 2018-10-26 21:50 大葱拌豆腐 阅读(1315) 评论(0) 推荐(0) 编辑
摘要:partitionBy 重新分区, repartition默认采用HashPartitioner分区,自己设计合理的分区方法(比如数量比较大的key 加个随机数 随机分到更多的分区, 这样处理数据倾斜更彻底一些) 这里的分区方法可以选择, 默认的分区就是HashPartition分区,注意如果多次使 阅读全文
posted @ 2018-10-25 23:57 大葱拌豆腐 阅读(5488) 评论(0) 推荐(0) 编辑
摘要:repartition 和 partitionBy 都是对数据进行重新分区,默认都是使用 HashPartitioner,区别在于partitionBy 只能用于 PairRDD,但是当它们同时都用于 PairRDD时,结果却不一样: 不难发现,其实 partitionBy 的结果才是我们所预期的, 阅读全文
posted @ 2018-10-25 23:21 大葱拌豆腐 阅读(10091) 评论(0) 推荐(0) 编辑
摘要:Spark提供了便利的Pipeline模型,可以轻松的创建自己的学习模型。 但是大部分模型都是需要提供参数的,如果不提供就是默认参数,那么怎么选择参数就是一个比较常见的问题。Spark提供在org.apache.spark.ml.tuning包下提供了模型选择器,可以替换参数然后比较模型输出。 目前 阅读全文
posted @ 2018-10-21 23:07 大葱拌豆腐 阅读(2395) 评论(0) 推荐(0) 编辑
摘要:1.理解 问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行? 首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢?我们需要一个概念来帮助 阅读全文
posted @ 2018-10-21 15:25 大葱拌豆腐 阅读(1254) 评论(0) 推荐(0) 编辑
摘要:场景用户画像的构造中,想象一个场景:你经过辛辛苦苦抓数据,清洗数据,收集用户行为,目的就是给用户计算兴趣标签。 这时候你可能会遇到一个两难的问题:如果给用户计算出兴趣标签的权重了,那应该保留多少标签呢?保留太多的话,每次召回候选集时,计算复杂度可不低,只保留少部分吧,那真是手心手背都是肉,生怕丢弃的 阅读全文
posted @ 2018-10-21 15:17 大葱拌豆腐 阅读(1451) 评论(0) 推荐(0) 编辑
摘要:转载自:https://blog.csdn.net/u011239443/article/details/53735609 阅读全文
posted @ 2018-10-21 14:47 大葱拌豆腐 阅读(628) 评论(0) 推荐(0) 编辑
摘要:org.apache.spark.sql.functions是一个Object,提供了约两百多个函数。 大部分函数与Hive的差不多。 除UDF函数,均可在spark-sql中直接使用。 经过import org.apache.spark.sql.functions._ ,也可以用于Datafram 阅读全文
posted @ 2018-10-19 21:10 大葱拌豆腐 阅读(13397) 评论(0) 推荐(0) 编辑
摘要:Spark SQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24 平常在使用mysql的时候,我们在写SQL的时候会使用到MySQL为我们提供的一 阅读全文
posted @ 2018-10-19 20:49 大葱拌豆腐 阅读(7102) 评论(0) 推荐(0) 编辑
摘要:版本说明:Spark-2.3.0 使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。 1 DataFrame列数据的合并例如:我们有如下数据,想要将三列数据合并为一列,并 阅读全文
posted @ 2018-10-18 23:38 大葱拌豆腐 阅读(14123) 评论(0) 推荐(0) 编辑
摘要:Scala中,所有的值都是类对象,而所有的类,包括值类型,都最终继承自一个统一的根类型Any。统一类型,是Scala的又一大特点。更特别的是,Scala中还定义了几个底层类(Bottom Class),比如Null和Nothing。 Null是所有引用类型的子类型,而Nothing是所有类型的子类型 阅读全文
posted @ 2018-10-18 23:32 大葱拌豆腐 阅读(603) 评论(0) 推荐(0) 编辑
摘要:1 采样算法解决数据倾斜的思想 2 采样算法在spark数据倾斜中的具体操作 阅读全文
posted @ 2018-10-16 23:40 大葱拌豆腐 阅读(1028) 评论(0) 推荐(0) 编辑
摘要:Spark中组件Mllib的学习之基础概念篇 1、解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层2,字符串长度为3划分为层1,对层1和层2按不同的概率进行抽样 数据 比如: val 阅读全文
posted @ 2018-10-16 23:36 大葱拌豆腐 阅读(2063) 评论(0) 推荐(0) 编辑
摘要:hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件。假设block设置为128M,你的文件是250M,那么这份文件占3个block(128+128+2)。这样的设计虽然会有一部分磁盘空间的浪费,但是整齐的block大小 阅读全文
posted @ 2018-10-12 16:54 大葱拌豆腐 阅读(3240) 评论(0) 推荐(0) 编辑
摘要:代码块: 阅读全文
posted @ 2018-10-09 20:56 大葱拌豆腐 阅读(15645) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示