2017 年 7月随笔档案 - 书灯

spark学习笔记之三：调度流程剖析

摘要：程序员->IDEA编写代码->jar包->放到集群计算-> 提交spark应用程序的机器->shell中spark-submit脚本提交程序->运行Driver进程（client模式和提交机器相同）->new sparkContext对象->sparkContext在初始化的时候，会启动UI，设置s 阅读全文

posted @ 2017-07-27 17:19 书灯阅读(3) 评论(0) 推荐(0) 编辑

spark学习笔记之二：宽依赖和窄依赖

摘要：1.如果父RDD里的一个partition只去向一个子RDD里的partition为窄依赖，否则为宽依赖（只要是shuffle操作）。 2.spark根据算子判断宽窄依赖：窄依赖：map,filter,union 宽依赖:groupByKey,join 3.宽窄依赖用于切割 action算子生成的阅读全文

posted @ 2017-07-27 17:17 书灯阅读(21) 评论(0) 推荐(0) 编辑

spark学习笔记之一：RDD的五大特性

摘要：1.A list of partitions RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的list；将数据加载为RDD时，一般会遵循数据的本地性（一般一个hdfs里的block会加载为一个partition）。 2.A function for computing e 阅读全文

posted @ 2017-07-27 17:12 书灯阅读(1) 评论(0) 推荐(0) 编辑

spark--transform算子--union

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_union { System.setProperty("hadoop.home.dir","F:\ 阅读全文

posted @ 2017-07-19 10:08 书灯阅读(2) 评论(0) 推荐(0) 编辑

spark--transform算子--sortByKey

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_sortByKey { System.setProperty("hadoop.home.dir", 阅读全文

posted @ 2017-07-19 10:05 书灯阅读(0) 评论(0) 推荐(0) 编辑

spark--transform算子--sample

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_sample { System.setProperty("hadoop.home.dir","F: 阅读全文

posted @ 2017-07-19 09:49 书灯阅读(2) 评论(0) 推荐(0) 编辑

spark--transform算子--repartition

摘要：import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by liupeng on 2017/6/16. */ object T_repar 阅读全文

posted @ 2017-07-19 09:39 书灯阅读(5) 评论(0) 推荐(0) 编辑

spark--transform算子--reduceByKey

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_reduceByKey { System.setProperty("hadoop.home.dir 阅读全文

posted @ 2017-07-19 09:06 书灯阅读(0) 评论(0) 推荐(0) 编辑

spark--transform算子--parallelized

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/15. */ object T_parallelized { System.setProperty("hadoop.home.di 阅读全文

posted @ 2017-07-18 21:56 书灯阅读(2) 评论(0) 推荐(0) 编辑

spark--transform算子--mapPartitionsWithIndex

摘要：import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by liupeng on 2017/6/15. */ object T_mapPa 阅读全文

posted @ 2017-07-18 21:52 书灯阅读(6) 评论(0) 推荐(0) 编辑

spark--transform算子--mapPartitions

摘要：import org.apache.spark.{SparkConf, SparkContext} import scala.collection.immutable.HashMap import scala.collection.mutable.ArrayBuffer /** * Created 阅读全文

posted @ 2017-07-18 21:46 书灯阅读(4) 评论(0) 推荐(0) 编辑

spark--transform算子--map

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/15. */ object T_map { System.setProperty("hadoop.home.dir","F:\\h 阅读全文

posted @ 2017-07-18 21:43 书灯阅读(0) 评论(0) 推荐(0) 编辑

spark--transform算子--join

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_join { System.setProperty("hadoop.home.dir","F:\\ 阅读全文

posted @ 2017-07-18 21:38 书灯阅读(1) 评论(0) 推荐(0) 编辑

spark--transform算子--intersection

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_intersection { System.setProperty("hadoop.home.di 阅读全文

posted @ 2017-07-18 21:24 书灯阅读(1) 评论(0) 推荐(0) 编辑

spark--transform算子--groupByKey

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_groupByKey { System.setProperty("hadoop.home.dir" 阅读全文

posted @ 2017-07-18 11:42 书灯阅读(2) 评论(0) 推荐(0) 编辑

spark--transform算子--flatMap

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_flatMap { System.setProperty("hadoop.home.dir","F 阅读全文

posted @ 2017-07-18 11:41 书灯阅读(2) 评论(0) 推荐(0) 编辑

spark--transform算子--filter

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/15. */ object T_filter { System.setProperty("hadoop.home.dir","F:\\h 阅读全文

posted @ 2017-07-18 11:39 书灯阅读(1) 评论(0) 推荐(0) 编辑

spark--transform算子--distinct

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_distinct { System.setProperty("hadoop.home.dir"," 阅读全文

posted @ 2017-07-18 11:15 书灯阅读(1) 评论(0) 推荐(0) 编辑

spark--transform算子--cogroup

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/16. */ object T_cogroup { System.setProperty("hadoop.home.dir","F:\\ 阅读全文

posted @ 2017-07-17 17:56 书灯阅读(4) 评论(0) 推荐(0) 编辑

spark--transform算子--coalesce

摘要：import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by yz02 on 2017/6/15. */ object T_coalesce 阅读全文

posted @ 2017-07-17 17:52 书灯阅读(4) 评论(0) 推荐(0) 编辑

spark--transform算子--cartesian

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by lp on 2017/6/16. */ object T_cartesian { System.setProperty("hadoop.home.dir","F:\\ 阅读全文

posted @ 2017-07-17 17:47 书灯阅读(3) 评论(0) 推荐(0) 编辑

spark--actions算子--takeSample

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/16. */ object A_takeSample { System.setProperty("hadoop.home.dir","F 阅读全文

posted @ 2017-07-13 09:41 书灯阅读(4) 评论(0) 推荐(0) 编辑

spark--actions算子--takeOrdered

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_takeOrdered { System.setProperty("hadoop.home.dir 阅读全文

posted @ 2017-07-13 09:37 书灯阅读(2) 评论(0) 推荐(0) 编辑

spark--actions算子--saveAsTextFile

摘要：import org.apache.hadoop.io.compress.GzipCodec import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_sa 阅读全文

posted @ 2017-07-13 09:35 书灯阅读(7) 评论(0) 推荐(0) 编辑

spark--actions算子--saveAsObjectFile

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_saveAsObjectFile { System.setProperty("hadoop.hom 阅读全文

posted @ 2017-07-13 09:28 书灯阅读(9) 评论(0) 推荐(0) 编辑

spark--actions算子--reduce

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_reduce { System.setProperty("hadoop.home.dir","F: 阅读全文

posted @ 2017-07-12 18:32 书灯阅读(3) 评论(0) 推荐(0) 编辑

spark--actions算子--first

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_first { System.setProperty("hadoop.home.dir","F:\ 阅读全文

posted @ 2017-07-12 14:36 书灯阅读(3) 评论(0) 推荐(0) 编辑

spark--actions算子--count

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_count { System.setProperty("hadoop.home.dir","F:\ 阅读全文

posted @ 2017-07-12 14:20 书灯阅读(5) 评论(0) 推荐(0) 编辑

spark--actions算子--collect

摘要：import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_collect { System.setProperty("hadoop.home.dir","F 阅读全文

posted @ 2017-07-08 10:35 书灯阅读(1) 评论(0) 推荐(0) 编辑

spark简介

摘要：Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是阅读全文

posted @ 2017-07-05 14:47 书灯阅读(2) 评论(0) 推荐(0) 编辑

hadoop简介

摘要：1、Hadoop定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、Hadoop有什么 Hadoop的框架最核心的设计就是：HDFS和MapReduce。 HDFS是一个分布式文件系统（Hadoop DistributedFile System）。HDFS有高容错性的特点，阅读全文

posted @ 2017-07-05 14:22 书灯阅读(11) 评论(0) 推荐(0) 编辑

上下文管理器（context managers）

摘要：上下文管理器允许你在有需要的时候，精确的分配和释放资源。使用上下文管理器最广泛的案例就是with语句了。一个常见的用例，是资源的加锁和解锁，以及关闭已打开的文件。通过使用with，许多样板代码被消掉了，这就是with语句的主要优势，它确保我们的文件会被关闭，而不用关注嵌套代码如何退出。 with 阅读全文

posted @ 2017-07-05 11:45 书灯阅读(4) 评论(0) 推荐(0) 编辑

spark--Actions算子--countByKey

摘要：import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/17. */ object A_countByKe 阅读全文

posted @ 2017-07-04 18:29 书灯阅读(3) 评论(0) 推荐(0) 编辑

python3正则表达式

摘要：正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。re 模块使 Python 语言拥有全部的正则表达式功能。 import re #re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直阅读全文

posted @ 2017-07-03 16:08 书灯阅读(0) 评论(0) 推荐(0) 编辑

装饰器(Decorators)

摘要：首先说一下python中的函数的特性：一切皆对象；可以在函数中定义函数，也就是说我们可以创建嵌套函数；从函数中返回函数；将函数作为参数传给另一个函数；而装饰器：简单的说他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短，也更Pythonic（Python范儿）。他们封装一个函数，阅读全文

posted @ 2017-07-03 16:05 书灯阅读(4) 评论(0) 推荐(0) 编辑

set(集合)数据结构

摘要：(集合)是一个非常有用的数据结构。它与列表list的行为类似，区别在于set不能包含重复的值。 some_list = ['a', 'b', 'c', 'd', 'b', 'a', 'n', 'n'] duplicates = set([x for x in some_list if some_li 阅读全文

posted @ 2017-07-03 15:53 书灯阅读(1) 评论(0) 推荐(0) 编辑

Map，Filter 和 Reduce

摘要：Map，Filter 和 Reduce 三个函数能为函数式编程提供便利。 #Map会将一个函数映射到一个输入列表的所有元素上，甚至可以用于一列表的函数。 items = [1,2,3,4,5] squared = [] squared = map(lambda x: x**2, items) pri 阅读全文

posted @ 2017-07-03 15:48 书灯阅读(3) 评论(0) 推荐(0) 编辑

生成器(Generators)

摘要：生成器也是一种迭代器，但是你只能对其迭代一次。这是因为它们并没有把所有的值存在内存中，而是在运行时生成值。你通过遍历来使用它们，要么用一个“for”循环，要么将它们传递给任意可以进行迭代的函数和结构。大多数时候生成器是以函数来实现的。然而，它们并不返回一个值，而是yield(暂且译作“生出”)一个值阅读全文

posted @ 2017-07-03 15:43 书灯阅读(2) 评论(0) 推荐(0) 编辑

python3中的*args 和 **kwargs

摘要：首先让我告诉你, 其实并不是必须写成*args 和**kwargs 只有变量前面的* (星号)才是必须的。你也可以写成*var 和**vars 而写成 *args 和**kwargs 只是一个通俗的命名约定。 def test_args_kwargs(arg1, arg2, arg3): prin 阅读全文

posted @ 2017-07-03 15:34 书灯阅读(4) 评论(0) 推荐(0) 编辑

python3基础

摘要：python基础可以看菜鸟教程：http://www.runoob.com/python3/python3-tutorial.html 主要学习python3的环境搭建，基本数据类型和数据结构，基础的模块等等。把教程上面的例子都学会，基础部分就OK了。安装时，记得一块安装pip3，这样当你需要引入阅读全文

posted @ 2017-07-03 15:03 书灯阅读(0) 评论(0) 推荐(0) 编辑

书灯

07 2017 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜