07 2017 档案
摘要:程序员->IDEA编写代码->jar包->放到集群计算-> 提交spark应用程序的机器->shell中spark-submit脚本提交程序->运行Driver进程(client模式和提交机器相同)->new sparkContext对象->sparkContext在初始化的时候,会启动UI,设置s
阅读全文
摘要:1.如果父RDD里的一个partition只去向一个子RDD里的partition为窄依赖,否则为宽依赖(只要是shuffle操作)。 2.spark根据算子判断宽窄依赖: 窄依赖:map,filter,union 宽依赖:groupByKey,join 3.宽窄依赖用于切割 action算子生成的
阅读全文
摘要:1.A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。 2.A function for computing e
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_union { System.setProperty("hadoop.home.dir","F:\
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_sortByKey { System.setProperty("hadoop.home.dir",
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_sample { System.setProperty("hadoop.home.dir","F:
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by liupeng on 2017/6/16. */ object T_repar
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_reduceByKey { System.setProperty("hadoop.home.dir
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/15. */ object T_parallelized { System.setProperty("hadoop.home.di
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by liupeng on 2017/6/15. */ object T_mapPa
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.immutable.HashMap import scala.collection.mutable.ArrayBuffer /** * Created
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/15. */ object T_map { System.setProperty("hadoop.home.dir","F:\\h
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_join { System.setProperty("hadoop.home.dir","F:\\
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_intersection { System.setProperty("hadoop.home.di
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_groupByKey { System.setProperty("hadoop.home.dir"
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_flatMap { System.setProperty("hadoop.home.dir","F
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/15. */ object T_filter { System.setProperty("hadoop.home.dir","F:\\h
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_distinct { System.setProperty("hadoop.home.dir","
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/16. */ object T_cogroup { System.setProperty("hadoop.home.dir","F:\\
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by yz02 on 2017/6/15. */ object T_coalesce
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by lp on 2017/6/16. */ object T_cartesian { System.setProperty("hadoop.home.dir","F:\\
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/16. */ object A_takeSample { System.setProperty("hadoop.home.dir","F
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_takeOrdered { System.setProperty("hadoop.home.dir
阅读全文
摘要:import org.apache.hadoop.io.compress.GzipCodec import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_sa
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_saveAsObjectFile { System.setProperty("hadoop.hom
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_reduce { System.setProperty("hadoop.home.dir","F:
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_first { System.setProperty("hadoop.home.dir","F:\
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_count { System.setProperty("hadoop.home.dir","F:\
阅读全文
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_collect { System.setProperty("hadoop.home.dir","F
阅读全文
摘要:Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是
阅读全文
摘要:1、Hadoop定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、Hadoop有什么 Hadoop的框架最核心的设计就是:HDFS和MapReduce。 HDFS是一个分布式文件系统(Hadoop DistributedFile System)。HDFS有高容错性的特点,
阅读全文
摘要:上下文管理器允许你在有需要的时候,精确的分配和释放资源。使用上下文管理器最广泛的案例就是with语句了。一个常见的用例,是资源的加锁和解锁,以及关闭已打开的文件。 通过使用with,许多样板代码被消掉了,这就是with语句的主要优势,它确保我们的文件会被关闭,而不用关注嵌套代码如何退出。 with
阅读全文
摘要:import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/17. */ object A_countByKe
阅读全文
摘要:正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。re 模块使 Python 语言拥有全部的正则表达式功能。 import re #re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直
阅读全文
摘要:首先说一下python中的函数的特性: 一切皆对象; 可以在函数中定义函数,也就是说我们可以创建嵌套函数; 从函数中返回函数; 将函数作为参数传给另一个函数; 而装饰器:简单的说他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短,也更Pythonic(Python范儿)。他们封装一个函数,
阅读全文
摘要:(集合)是一个非常有用的数据结构。它与列表list的行为类似,区别在于set不能包含重复的值。 some_list = ['a', 'b', 'c', 'd', 'b', 'a', 'n', 'n'] duplicates = set([x for x in some_list if some_li
阅读全文
摘要:Map,Filter 和 Reduce 三个函数能为函数式编程提供便利。 #Map会将一个函数映射到一个输入列表的所有元素上,甚至可以用于一列表的函数。 items = [1,2,3,4,5] squared = [] squared = map(lambda x: x**2, items) pri
阅读全文
摘要:生成器也是一种迭代器,但是你只能对其迭代一次。这是因为它们并没有把所有的值存在内存中,而是在运行时生成值。你通过遍历来使用它们,要么用一个“for”循环,要么将它们传递给任意可以进行迭代的函数和结构。大多数时候生成器是以函数来实现的。然而,它们并不返回一个值,而是yield(暂且译作“生出”)一个值
阅读全文
摘要:首先让我告诉你, 其实并不是必须写成*args 和**kwargs 只有变量前面的* (星号)才是必须的。 你也可以写成*var 和**vars 而写成 *args 和**kwargs 只是一个通俗的命名约定。 def test_args_kwargs(arg1, arg2, arg3): prin
阅读全文
摘要:python基础可以看菜鸟教程:http://www.runoob.com/python3/python3-tutorial.html 主要学习python3的环境搭建,基本数据类型和数据结构,基础的模块等等。把教程上面的例子都学会,基础部分就OK了。 安装时,记得一块安装pip3,这样当你需要引入
阅读全文