公告

02 2015 档案

spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable

摘要：出现“task not serializable"这个错误，一般是因为在map、filter等的参数使用了外部的变量，但是这个变量不能序列化。特别是当引用了某个类（经常是当前类）的成员函数或变量时，会导致这个类的所有成员（整个类）都需要支持序列化。解决这个问题最常用的方法有：如果可以，将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类；如果可以，将依赖的变量独立... 阅读全文

posted @ 2015-02-28 12:15 过雁阅读(23145) 评论(0) 推荐(0)

zeppelin 无法连接一个已有的standalone模式的spark集群

摘要：SparkInterpreter.java 这个文件里面读取master的属性有些问题：原来代码中“master”属性的获取的地方应该是错了。设置和读取这个属性的对象不是同一个如下修改后从新编译，优先读环境变量。然后设置MASTER环境变量后可正常连接。左边是修改后的，右边是原来的。From WizNote 阅读全文

posted @ 2015-02-12 17:06 过雁阅读(533) 评论(0) 推荐(0)

SQL optimizer -Query Optimizer Deep Dive

摘要：refer: http://sqlblog.com/blogs/paul_white/archive/2012/04/28/query-optimizer-deep-dive-part-1.aspx SQL是一种结构化查询语言规范，它从逻辑是哪个描述了用户需要的结果，而SQL服务器将这个逻辑需求描述转成能执行的物理执行计划，从而把结果返回给用户。将逻辑需求转换成一个更有效的物理执行计划的过程... 阅读全文

posted @ 2015-02-10 00:24 过雁阅读(1243) 评论(0) 推荐(0)

前世今生：Hive、Shark、spark SQL

摘要：Hive （http://en.wikipedia.org/wiki/Apache_Hive ）（非严格的原文顺序翻译） Apache Hive是一个构建在Hadoop上的数据仓库框架，它提供数据的概要信息、查询和分析功能。最早是Facebook开发的，现在也被像Netflix这样的公司使用。Amazon维护了一个为自己定制的分支。 Hive提供了一个类SQL的语音--HiveQL，它将对关系数... 阅读全文

posted @ 2015-02-06 01:47 过雁阅读(7555) 评论(0) 推荐(0)

spark streaming 6: BlockGenerator、RateLimiter

摘要：BlockGenerator和RateLimiter其实很简单，但是它包含了几个很重要的属性配置的处理，所以记录一下。/** * Generates batches of objects received by a * [[org.apache.spark.streaming.receiver.Receiver]] and puts them into appropriately * named ... 阅读全文

posted @ 2015-02-05 17:50 过雁阅读(424) 评论(0) 推荐(0)

spark streaming 5: InputDStream

摘要：InputDStream的继承关系。他们都是使用InputDStream这个抽象类的接口进行操作的。特别注意ReceiverInputDStream这个类，大部分时候我们使用的是它作为扩展的基类，因为它才能（更容易）使接收数据的工作分散到各个worker上执行，更符合分布式计算的理念。所有的输入流都某个时间间隔将数据以block的形式保存到spark memory中，但以spark core不同的... 阅读全文

posted @ 2015-02-05 17:17 过雁阅读(1221) 评论(0) 推荐(0)

spark streaming 4: DStreamGraph JobScheduler

摘要：DStreamGraph有点像简洁版的DAG scheduler，负责根据某个时间间隔生成一序列JobSet，以及按照依赖关系序列化。这个类的inputStream和outputStream是最重要的属性。spark stream将动态的输入流与对流的处理通过一个shuffle来连接。前面的（shuffle map）是input stream，其实是DStream的子类，它们负责将收集的数据以bl... 阅读全文

posted @ 2015-02-05 14:46 过雁阅读(742) 评论(0) 推荐(0)

spark streaming 3: Receiver 到 submitJobSet

摘要：对于spark streaming来说，receiver是数据的源头。spark streaming的框架上，将receiver替换spark-core的以磁盘为数据源的做法，但是数据源（如监听某个tcp链接）显然不是可靠且不知道数据什么时候准备好的，所以spark streaming使用shuffle隔离receiver与后面的数据处理。使用receiver模拟shuffle task将数据按... 阅读全文

posted @ 2015-02-05 14:45 过雁阅读(916) 评论(0) 推荐(0)

spark streaming 2: DStream

摘要：DStream是类似于RDD概念，是对数据的抽象封装。它是一序列的RDD，事实上，它大部分的操作都是对RDD支持的操作的封装，不同的是，每次DStream都要遍历它内部所有的RDD执行这些操作。它可以由StreamingContext通过流数据产生或者其他DStream使用map方法产生（与RDD一样）time属性对DStream而言非常重要，DStream里面的RDD就是通过某个时间间隔产生的，... 阅读全文

posted @ 2015-02-05 14:42 过雁阅读(665) 评论(0) 推荐(0)

spark streaming 1: SparkContex

摘要：StreamingContext 和SparkContex的用途是差不多的，作为spark stream的入口，提供配置、生成DStream等功能。总体来看，spark stream包括如下模块：/** * Main entry point for Spark Streaming functionality. It provides methods used to create * [[org.a... 阅读全文

posted @ 2015-02-05 14:41 过雁阅读(856) 评论(0) 推荐(0)

spark MLlib 概念 6：ALS（Alternating Least Squares） or (ALS-WR)

摘要：Large-scale Parallel Collaborative Filtering for the Netflix Prizehttp://www.hpl.hp.com/personal/Robert_Schreiber/papers/2008%20AAIM%20Netflix/netflix_aaim08(submitted).pdf MATRIX FACTORIZATION TECHNI... 阅读全文

posted @ 2015-02-03 00:30 过雁阅读(3034) 评论(0) 推荐(0)

zeppelin安装使用

摘要：官网：http://zeppelin-project.org/ 代码：https://github.com/NFLabs/zeppelin 使用：按照官网的视频操作一遍，应该就懂了http://youtu.be/_PQbVH_aO5E 编译：使用git下载最新的代码，或者直接下载zip压缩包https://github.com/NFLabs/zeppelin/archive/master.zip ... 阅读全文

posted @ 2015-02-02 10:24 过雁阅读(1744) 评论(1) 推荐(0)

spark MLlib 概念 5：余弦相似度（Cosine similarity）

摘要：概述：余弦相似度是对两个向量相似度的描述，表现为两个向量的夹角的余弦值。当方向相同时（调度为0），余弦值为1，标识强相关；当相互垂直时（在线性代数里，两个维度垂直意味着他们相互独立），余弦值为0，标识他们无关。Cosine similarityis a measure of similarity between two vectors of aninner product spacetha... 阅读全文

posted @ 2015-02-01 18:24 过雁阅读(4501) 评论(0) 推荐(0)

spark MLlib 概念 4：协同过滤（CF）

摘要：1. 定义协同过滤（Collaborative Filtering）有狭义和广义两种意义：广义协同过滤：对来源不同的数据，根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems.[1]Collaborative filtering has two senses, a n... 阅读全文

posted @ 2015-02-01 17:54 过雁阅读(1491) 评论(0) 推荐(0)

spark MLlib 概念 3：卡方分布（chi-squared distribution）

摘要：数学定义[编辑]若k个随机变量、……、是相互独立，符合标准正态分布的随机变量（数学期望为0、方差为1），则随机变量Z的平方和被称为服从自由度为k的卡方分布，记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom variables, then the sum of their squares,is dis... 阅读全文

posted @ 2015-02-01 17:00 过雁阅读(907) 评论(0) 推荐(0)

spark MLlib 概念 2：Stratified sampling 层次抽样

摘要：定义：Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independently.Stratificationis the process of dividing memb... 阅读全文

posted @ 2015-02-01 16:54 过雁阅读(798) 评论(0) 推荐(0)

摘要：皮尔森相关系数定义：协方差与标准差乘积的商。Pearson's correlation coefficient when applied to a population is commonly represented by the Greek letter ρ (rho) and may be referred to as the population correlation coefficie... 阅读全文

posted @ 2015-02-01 16:49 过雁阅读(3239) 评论(0) 推荐(0)