随笔分类 -  spark

1
摘要:Spark中的任务管理是很重要的内容,可以说想要理解Spark的计算流程,就必须对它的任务的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就无法去做优化...因此本篇就从源码的角度说说其中的一部分,Stage的切分——DAG图的创建 先说说概念 在Spark中有几个维度的概 阅读全文
posted @ 2018-03-07 17:10 dy9776 阅读(424) 评论(0) 推荐(1) 编辑
摘要:Spark的运行模式是多种多样的,那么在这篇博客中谈一下Spark的运行模式 一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可 具 阅读全文
posted @ 2018-03-07 16:52 dy9776 阅读(1093) 评论(0) 推荐(0) 编辑
摘要:在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。 Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。Spark提供的基于RDD的一体化解决方案,将MapRe 阅读全文
posted @ 2018-03-07 16:46 dy9776 阅读(534) 评论(0) 推荐(0) 编辑
摘要:机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。其目标是使实际的机器学习可扩展和容易。在高层次上,它提供了如下工具: ML算法:通用学习算法,如分类,回归,聚类和协同过滤 特征提取,特征提取,转换,降维和选择 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法 阅读全文
posted @ 2018-02-27 14:54 dy9776 阅读(875) 评论(0) 推荐(0) 编辑
摘要:1.看到 这篇总结的这么好, 就悄悄的转过来,供学习 wordcount.toDebugString查看RDD的继承链条所以广义的讲,对任何函数进行某一项操作都可以认为是一个算子,甚至包括求幂次,开方都可以认为是一个算子,只是有的算子我们用了一个符号来代替他所要进行的运算罢了,所以大家看到算子就不要 阅读全文
posted @ 2017-12-12 18:46 dy9776 阅读(349) 评论(0) 推荐(0) 编辑
摘要:规范化,有关之前都是用 python写的, 偶然要用scala 进行写, 看到这位大神写的, 那个网页也不错,那个连接图做的还蛮不错的,那天也将自己的博客弄一下那个插件。 本文来源 原文地址:http://www.neilron.xyz/spark-ml-feature-scaler/ 下面是大神写 阅读全文
posted @ 2017-12-06 20:04 dy9776 阅读(14049) 评论(0) 推荐(0) 编辑
摘要:这下面的练习中,需要自己将spark的jar包 添加进来。 1.spark Mlib 底层使用的向量、矩阵运算使用了Breeze库。 scalaNLP 是一套 机器学习和数值技算的库。它主要是关于科学技术(sc)、机器学习(ML)和自然语言处理(NLP)的。它包括三个库,Breeze、Epic 和 阅读全文
posted @ 2017-12-05 19:31 dy9776 阅读(4850) 评论(0) 推荐(0) 编辑
摘要:看到这里有几个有意思的 规则,转载于此: Read Eval Print Loop (REPL) REPL在Scala里面指的是直接运行scala.exe进入的交互式命令行模式。广义上讲,也泛指那些在线编程工具。 核心规则1:请使用REPL来熟悉Scala语言。 Scala的REPL有个好处是能够将 阅读全文
posted @ 2017-09-11 14:58 dy9776 阅读(628) 评论(0) 推荐(0) 编辑
摘要:在scala中这四个类型名称很类似,作用确实完全不同的。 None是一个object,是Option的子类型,定义如下 [java] view plain copy print? case object None extends Option[Nothing] { def isEmpty = tru 阅读全文
posted @ 2017-08-24 18:21 dy9776 阅读(930) 评论(0) 推荐(1) 编辑
摘要:经常在写Rdd的时候, 如: val OWNER_ID=row.getAs("OWNER_ID") 等, 运行是可能会报异常 : java.lang.String cannot be cast to scala.runtime.Nothing 后检查后发现,其实应该保证类型一致,应该写成: val 阅读全文
posted @ 2017-08-10 19:52 dy9776 阅读(2368) 评论(0) 推荐(0) 编辑
摘要:相信很多人和我一样, 在控制台中总是可以看到会打印出如下的语句: INFO ExternalAppendOnlyMap: Thread 94 spilling in-memory map of 63.2 MB to disk (7 times so far) 经过查询一下,摘抄入下: AppendO 阅读全文
posted @ 2017-08-08 11:41 dy9776 阅读(2503) 评论(0) 推荐(1) 编辑
摘要:一 部署本地spark环境 1.1 安装好JDK 下载并安装好jdk1.7,配置完环境变量。 1.2 Spark环境变量配置 去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6 阅读全文
posted @ 2017-04-27 19:41 dy9776 阅读(8966) 评论(0) 推荐(0) 编辑
摘要:如题:错误并不是因为字段过长而导致出错的, 1. 可能是因为数据库里的表设置的字符集不相同。 2. 也可能真是数据库字段里数据库确实过长(我是遇到的这种情况)。 例如:在同一个数据库中,存在utf8的表,也存在gbk_chinese_ci的表。 解决办法:alter table `cms_activ 阅读全文
posted @ 2017-04-19 22:27 dy9776 阅读(9611) 评论(0) 推荐(0) 编辑
摘要:1.问题 java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space 17/04/17 17:46:36 ERROR TaskSetManager: Task 1 in stage 3.0 阅读全文
posted @ 2017-04-18 16:38 dy9776 阅读(12671) 评论(0) 推荐(0) 编辑
摘要:官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema。这种方法会简化代码并且在你已经知道schema的时候非常适用。 先创建一个bean类 case class Person(name: String, age: Int) 然后将Rdd转换成DataFrame val peo 阅读全文
posted @ 2017-03-31 10:01 dy9776 阅读(529) 评论(0) 推荐(0) 编辑
摘要:Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 阅读全文
posted @ 2017-03-16 14:28 dy9776 阅读(24636) 评论(0) 推荐(0) 编辑
摘要:dycopy :http://blog.csdn.net/dabokele/article/details/52802150 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Sc 阅读全文
posted @ 2017-03-13 10:38 dy9776 阅读(34318) 评论(0) 推荐(3) 编辑
摘要:RDD操作 RDD操作 1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1,2,3}和{3,4,5}的RDD进行针对两个RDD的转化操作 3.对一个数据为{1,2,3,3}的RDD进行基本的RDD行动操作 rdd.aggregate( 阅读全文
posted @ 2017-03-13 09:58 dy9776 阅读(301) 评论(0) 推荐(0) 编辑
摘要:图1 spark 相关 亚马逊云存储之S3(Simple Storage Service简单存储服务) (转 ) S3是Simple Storage Service的缩写,即简单存储服务。亚马逊的名词缩写也都遵循这个习惯,例如Elastic Compute Cloud缩写为EC2等等。其他组织类似的 阅读全文
posted @ 2017-01-11 15:56 dy9776 阅读(26265) 评论(0) 推荐(2) 编辑
摘要:最近在看Apache Apollo 代码,其中有很多scala代码,没办法需要安装一个scala插件。 我试过zip 安装,直接下载的update-site.zip 不能直接安装到位。我又特别懒,不想复制文件夹。 所以我是通过help->install new software 安装。add 输入网 阅读全文
posted @ 2016-11-03 21:06 dy9776 阅读(4230) 评论(0) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示