摘要:出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:如果可以,将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类;如果可以,将依赖的变量独立...
阅读全文
02 2015 档案
摘要:出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:如果可以,将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类;如果可以,将依赖的变量独立...
阅读全文
摘要:SparkInterpreter.java 这个文件里面读取master的属性有些问题:原来代码中“master”属性的获取的地方应该是错了。设置和读取这个属性的对象不是同一个如下修改后从新编译,优先读环境变量。然后设置MASTER环境变量后可正常连接。左边是修改后的,右边是原来的。From WizNote
阅读全文
摘要:refer: http://sqlblog.com/blogs/paul_white/archive/2012/04/28/query-optimizer-deep-dive-part-1.aspx SQL是一种结构化查询语言规范,它从逻辑是哪个描述了用户需要的结果,而SQL服务器将这个逻辑需求描述转成能执行的物理执行计划,从而把结果返回给用户。将逻辑需求转换成一个更有效的物理执行计划的过程...
阅读全文
摘要:Hive (http://en.wikipedia.org/wiki/Apache_Hive )(非严格的原文顺序翻译) Apache Hive是一个构建在Hadoop上的数据仓库框架,它提供数据的概要信息、查询和分析功能。最早是Facebook开发的,现在也被像Netflix这样的公司使用。Amazon维护了一个为自己定制的分支。 Hive提供了一个类SQL的语音--HiveQL,它将对关系数...
阅读全文
摘要:BlockGenerator和RateLimiter其实很简单,但是它包含了几个很重要的属性配置的处理,所以记录一下。/** * Generates batches of objects received by a * [[org.apache.spark.streaming.receiver.Receiver]] and puts them into appropriately * named ...
阅读全文
摘要:InputDStream的继承关系。他们都是使用InputDStream这个抽象类的接口进行操作的。特别注意ReceiverInputDStream这个类,大部分时候我们使用的是它作为扩展的基类,因为它才能(更容易)使接收数据的工作分散到各个worker上执行,更符合分布式计算的理念。所有的输入流都某个时间间隔将数据以block的形式保存到spark memory中,但以spark core不同的...
阅读全文
摘要:DStreamGraph有点像简洁版的DAG scheduler,负责根据某个时间间隔生成一序列JobSet,以及按照依赖关系序列化。这个类的inputStream和outputStream是最重要的属性。spark stream将动态的输入流与对流的处理通过一个shuffle来连接。前面的(shuffle map)是input stream,其实是DStream的子类,它们负责将收集的数据以bl...
阅读全文
摘要:对于spark streaming来说,receiver是数据的源头。spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个tcp链接)显然不是可靠且不知道数据什么时候准备好的,所以spark streaming使用shuffle隔离receiver与后面的数据处理。使用receiver模拟shuffle task将数据按...
阅读全文
摘要:DStream是类似于RDD概念,是对数据的抽象封装。它是一序列的RDD,事实上,它大部分的操作都是对RDD支持的操作的封装,不同的是,每次DStream都要遍历它内部所有的RDD执行这些操作。它可以由StreamingContext通过流数据产生或者其他DStream使用map方法产生(与RDD一样)time属性对DStream而言非常重要,DStream里面的RDD就是通过某个时间间隔产生的,...
阅读全文
摘要:StreamingContext 和SparkContex的用途是差不多的,作为spark stream的入口,提供配置、生成DStream等功能。总体来看,spark stream包括如下模块:/** * Main entry point for Spark Streaming functionality. It provides methods used to create * [[org.a...
阅读全文
摘要:Large-scale Parallel Collaborative Filtering for the Netflix Prizehttp://www.hpl.hp.com/personal/Robert_Schreiber/papers/2008%20AAIM%20Netflix/netflix_aaim08(submitted).pdf MATRIX FACTORIZATION TECHNI...
阅读全文
摘要:官网:http://zeppelin-project.org/ 代码:https://github.com/NFLabs/zeppelin 使用:按照官网的视频操作一遍,应该就懂了http://youtu.be/_PQbVH_aO5E 编译:使用git下载最新的代码,或者直接下载zip压缩包https://github.com/NFLabs/zeppelin/archive/master.zip ...
阅读全文
摘要:概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity between two vectors of aninner product spacetha...
阅读全文
摘要:1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义:广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems.[1]Collaborative filtering has two senses, a n...
阅读全文
摘要:数学定义[编辑]若k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和被称为服从自由度为k的卡方分布,记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom variables, then the sum of their squares,is dis...
阅读全文
摘要:定义:Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independently.Stratificationis the process of dividing memb...
阅读全文
摘要:皮尔森相关系数定义: 协方差与标准差乘积的商。Pearson's correlation coefficient when applied to a population is commonly represented by the Greek letter ρ (rho) and may be referred to as the population correlation coefficie...
阅读全文
|