spark - 随笔分类 - dy9776

Spark Stage切分源码剖析——DAGScheduler

摘要：Spark中的任务管理是很重要的内容，可以说想要理解Spark的计算流程，就必须对它的任务的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就无法去做优化...因此本篇就从源码的角度说说其中的一部分，Stage的切分——DAG图的创建先说说概念在Spark中有几个维度的概阅读全文

posted @ 2018-03-07 17:10 dy9776 阅读(436) 评论(0) 推荐(1)

Spark的运行模式详解

摘要：Spark的运行模式是多种多样的，那么在这篇博客中谈一下Spark的运行模式一：Spark On Local 此种模式下，我们只需要在安装Spark时不进行hadoop和Yarn的环境配置，只要将Spark包解压即可使用，运行时Spark目录下的bin目录执行bin/spark-shell即可具阅读全文

posted @ 2018-03-07 16:52 dy9776 阅读(1114) 评论(0) 推荐(0)

Spark核心技术原理透视一（Spark运行原理）

摘要：在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。 Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapRe 阅读全文

posted @ 2018-03-07 16:46 dy9776 阅读(660) 评论(0) 推荐(0)

Spark的MLlib和ML库的区别

摘要：机器学习库（MLlib）指南 MLlib是Spark的机器学习（ML）库。其目标是使实际的机器学习可扩展和容易。在高层次上，它提供了如下工具： ML算法：通用学习算法，如分类，回归，聚类和协同过滤特征提取，特征提取，转换，降维和选择管道：用于构建，评估和调整ML管道的工具持久性：保存和加载算法阅读全文

posted @ 2018-02-27 14:54 dy9776 阅读(901) 评论(0) 推荐(0)

spark rdd Transformation和Action 剖析

摘要：1.看到这篇总结的这么好，就悄悄的转过来，供学习 wordcount.toDebugString查看RDD的继承链条所以广义的讲，对任何函数进行某一项操作都可以认为是一个算子，甚至包括求幂次，开方都可以认为是一个算子，只是有的算子我们用了一个符号来代替他所要进行的运算罢了，所以大家看到算子就不要阅读全文

posted @ 2017-12-12 18:46 dy9776 阅读(362) 评论(0) 推荐(0)

Spark ML 几种归一化(规范化)方法总结

摘要：规范化，有关之前都是用 python写的，偶然要用scala 进行写，看到这位大神写的，那个网页也不错，那个连接图做的还蛮不错的，那天也将自己的博客弄一下那个插件。本文来源原文地址：http://www.neilron.xyz/spark-ml-feature-scaler/ 下面是大神写阅读全文

posted @ 2017-12-06 20:04 dy9776 阅读(14137) 评论(0) 推荐(0)

Spark MLlib之使用Breeze操作矩阵向量

摘要：这下面的练习中，需要自己将spark的jar包添加进来。 1.spark Mlib 底层使用的向量、矩阵运算使用了Breeze库。 scalaNLP 是一套机器学习和数值技算的库。它主要是关于科学技术（sc）、机器学习（ML）和自然语言处理（NLP)的。它包括三个库，Breeze、Epic 和阅读全文

posted @ 2017-12-05 19:31 dy9776 阅读(4882) 评论(0) 推荐(0)

理解Scala - 核心规则

摘要：看到这里有几个有意思的规则，转载于此： Read Eval Print Loop (REPL) REPL在Scala里面指的是直接运行scala.exe进入的交互式命令行模式。广义上讲，也泛指那些在线编程工具。核心规则1：请使用REPL来熟悉Scala语言。 Scala的REPL有个好处是能够将阅读全文

posted @ 2017-09-11 14:58 dy9776 阅读(632) 评论(0) 推荐(0)

Scala中的None,Nothing,Null,Nil

摘要：在scala中这四个类型名称很类似，作用确实完全不同的。 None是一个object，是Option的子类型，定义如下 [java] view plain copy print? case object None extends Option[Nothing] { def isEmpty = tru 阅读全文

posted @ 2017-08-24 18:21 dy9776 阅读(955) 评论(0) 推荐(1)

java.lang.String cannot be cast to scala.runtime.Nothing Scala中的Nothing类型

摘要：经常在写Rdd的时候，如： val OWNER_ID=row.getAs("OWNER_ID") 等，运行是可能会报异常： java.lang.String cannot be cast to scala.runtime.Nothing 后检查后发现，其实应该保证类型一致，应该写成： val 阅读全文

posted @ 2017-08-10 19:52 dy9776 阅读(2393) 评论(0) 推荐(0)

spark的外排:AppendOnlyMap与ExternalAppendOnlyMap

摘要：相信很多人和我一样，在控制台中总是可以看到会打印出如下的语句： INFO ExternalAppendOnlyMap: Thread 94 spilling in-memory map of 63.2 MB to disk (7 times so far) 经过查询一下，摘抄入下： AppendO 阅读全文

posted @ 2017-08-08 11:41 dy9776 阅读(2547) 评论(0) 推荐(1)

Python pycharm（windows版本）部署spark环境

摘要：一部署本地spark环境 1.1 安装好JDK 下载并安装好jdk1.7，配置完环境变量。 1.2 Spark环境变量配置去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本，我下载的是spark-1.6.0-bin-hadoop2.6 阅读全文

posted @ 2017-04-27 19:41 dy9776 阅读(9040) 评论(0) 推荐(0)

插入UUID，出现Data truncation: Data too long for column 'id' at row 1

摘要：如题：错误并不是因为字段过长而导致出错的, 1. 可能是因为数据库里的表设置的字符集不相同。 2. 也可能真是数据库字段里数据库确实过长(我是遇到的这种情况)。例如：在同一个数据库中，存在utf8的表，也存在gbk_chinese_ci的表。解决办法：alter table `cms_activ 阅读全文

posted @ 2017-04-19 22:27 dy9776 阅读(9656) 评论(0) 推荐(0)

IDEA 开发环境中调试Spark SQL及遇到问题解决办法

摘要：1.问题 java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space 17/04/17 17:46:36 ERROR TaskSetManager: Task 1 in stage 3.0 阅读全文

posted @ 2017-04-18 16:38 dy9776 阅读(12715) 评论(0) 推荐(0)

RDD转换成DataFrames

摘要：官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema。这种方法会简化代码并且在你已经知道schema的时候非常适用。先创建一个bean类 case class Person(name: String, age: Int) 然后将Rdd转换成DataFrame val peo 阅读全文

posted @ 2017-03-31 10:01 dy9776 阅读(540) 评论(0) 推荐(0)

spark dataframe操作集锦（提取前几行，合并，入库等）

摘要：Spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就阅读全文

posted @ 2017-03-16 14:28 dy9776 阅读(24688) 评论(0) 推荐(0)

Spark-SQL之DataFrame操作

摘要：dycopy :http://blog.csdn.net/dabokele/article/details/52802150 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Sc 阅读全文

posted @ 2017-03-13 10:38 dy9776 阅读(34802) 评论(0) 推荐(3)

RDD操作

摘要：RDD操作 RDD操作 1.对一个数据为{1，2，3，3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1，2，3}和{3，4，5}的RDD进行针对两个RDD的转化操作 3.对一个数据为{1，2，3，3}的RDD进行基本的RDD行动操作 rdd.aggregate( 阅读全文

posted @ 2017-03-13 09:58 dy9776 阅读(313) 评论(0) 推荐(0)

S3 服务(Simple Storage Service简单存储服务) 简介(与hdfs同一级)

摘要：图1 spark 相关亚马逊云存储之S3(Simple Storage Service简单存储服务) (转 ) S3是Simple Storage Service的缩写，即简单存储服务。亚马逊的名词缩写也都遵循这个习惯，例如Elastic Compute Cloud缩写为EC2等等。其他组织类似的阅读全文

posted @ 2017-01-11 15:56 dy9776 阅读(26673) 评论(0) 推荐(2)

scala eclipse plugin 插件安装

摘要：最近在看Apache Apollo 代码，其中有很多scala代码，没办法需要安装一个scala插件。我试过zip 安装，直接下载的update-site.zip 不能直接安装到位。我又特别懒，不想复制文件夹。所以我是通过help->install new software 安装。add 输入网阅读全文

posted @ 2016-11-03 21:06 dy9776 阅读(4245) 评论(0) 推荐(0)

dy9776

随笔分类 - spark

公告