07 2017 档案

摘要:程序员->IDEA编写代码->jar包->放到集群计算-> 提交spark应用程序的机器->shell中spark-submit脚本提交程序->运行Driver进程(client模式和提交机器相同)->new sparkContext对象->sparkContext在初始化的时候,会启动UI,设置s 阅读全文
posted @ 2017-07-27 17:19 书灯 阅读(3) 评论(0) 推荐(0) 编辑
摘要:1.如果父RDD里的一个partition只去向一个子RDD里的partition为窄依赖,否则为宽依赖(只要是shuffle操作)。 2.spark根据算子判断宽窄依赖: 窄依赖:map,filter,union 宽依赖:groupByKey,join 3.宽窄依赖用于切割 action算子生成的 阅读全文
posted @ 2017-07-27 17:17 书灯 阅读(21) 评论(0) 推荐(0) 编辑
摘要:1.A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。 2.A function for computing e 阅读全文
posted @ 2017-07-27 17:12 书灯 阅读(1) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_union { System.setProperty("hadoop.home.dir","F:\ 阅读全文
posted @ 2017-07-19 10:08 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_sortByKey { System.setProperty("hadoop.home.dir", 阅读全文
posted @ 2017-07-19 10:05 书灯 阅读(0) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_sample { System.setProperty("hadoop.home.dir","F: 阅读全文
posted @ 2017-07-19 09:49 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by liupeng on 2017/6/16. */ object T_repar 阅读全文
posted @ 2017-07-19 09:39 书灯 阅读(5) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_reduceByKey { System.setProperty("hadoop.home.dir 阅读全文
posted @ 2017-07-19 09:06 书灯 阅读(0) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/15. */ object T_parallelized { System.setProperty("hadoop.home.di 阅读全文
posted @ 2017-07-18 21:56 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by liupeng on 2017/6/15. */ object T_mapPa 阅读全文
posted @ 2017-07-18 21:52 书灯 阅读(6) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.immutable.HashMap import scala.collection.mutable.ArrayBuffer /** * Created 阅读全文
posted @ 2017-07-18 21:46 书灯 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/15. */ object T_map { System.setProperty("hadoop.home.dir","F:\\h 阅读全文
posted @ 2017-07-18 21:43 书灯 阅读(0) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_join { System.setProperty("hadoop.home.dir","F:\\ 阅读全文
posted @ 2017-07-18 21:38 书灯 阅读(1) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_intersection { System.setProperty("hadoop.home.di 阅读全文
posted @ 2017-07-18 21:24 书灯 阅读(1) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_groupByKey { System.setProperty("hadoop.home.dir" 阅读全文
posted @ 2017-07-18 11:42 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_flatMap { System.setProperty("hadoop.home.dir","F 阅读全文
posted @ 2017-07-18 11:41 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/15. */ object T_filter { System.setProperty("hadoop.home.dir","F:\\h 阅读全文
posted @ 2017-07-18 11:39 书灯 阅读(1) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object T_distinct { System.setProperty("hadoop.home.dir"," 阅读全文
posted @ 2017-07-18 11:15 书灯 阅读(1) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/16. */ object T_cogroup { System.setProperty("hadoop.home.dir","F:\\ 阅读全文
posted @ 2017-07-17 17:56 书灯 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer /** * Created by yz02 on 2017/6/15. */ object T_coalesce 阅读全文
posted @ 2017-07-17 17:52 书灯 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by lp on 2017/6/16. */ object T_cartesian { System.setProperty("hadoop.home.dir","F:\\ 阅读全文
posted @ 2017-07-17 17:47 书灯 阅读(3) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by yz02 on 2017/6/16. */ object A_takeSample { System.setProperty("hadoop.home.dir","F 阅读全文
posted @ 2017-07-13 09:41 书灯 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_takeOrdered { System.setProperty("hadoop.home.dir 阅读全文
posted @ 2017-07-13 09:37 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:import org.apache.hadoop.io.compress.GzipCodec import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_sa 阅读全文
posted @ 2017-07-13 09:35 书灯 阅读(7) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_saveAsObjectFile { System.setProperty("hadoop.hom 阅读全文
posted @ 2017-07-13 09:28 书灯 阅读(9) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_reduce { System.setProperty("hadoop.home.dir","F: 阅读全文
posted @ 2017-07-12 18:32 书灯 阅读(3) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_first { System.setProperty("hadoop.home.dir","F:\ 阅读全文
posted @ 2017-07-12 14:36 书灯 阅读(3) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_count { System.setProperty("hadoop.home.dir","F:\ 阅读全文
posted @ 2017-07-12 14:20 书灯 阅读(5) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/16. */ object A_collect { System.setProperty("hadoop.home.dir","F 阅读全文
posted @ 2017-07-08 10:35 书灯 阅读(1) 评论(0) 推荐(0) 编辑
摘要:Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是 阅读全文
posted @ 2017-07-05 14:47 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:1、Hadoop定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、Hadoop有什么 Hadoop的框架最核心的设计就是:HDFS和MapReduce。 HDFS是一个分布式文件系统(Hadoop DistributedFile System)。HDFS有高容错性的特点, 阅读全文
posted @ 2017-07-05 14:22 书灯 阅读(11) 评论(0) 推荐(0) 编辑
摘要:上下文管理器允许你在有需要的时候,精确的分配和释放资源。使用上下文管理器最广泛的案例就是with语句了。一个常见的用例,是资源的加锁和解锁,以及关闭已打开的文件。 通过使用with,许多样板代码被消掉了,这就是with语句的主要优势,它确保我们的文件会被关闭,而不用关注嵌套代码如何退出。 with 阅读全文
posted @ 2017-07-05 11:45 书灯 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} /** * Created by liupeng on 2017/6/17. */ object A_countByKe 阅读全文
posted @ 2017-07-04 18:29 书灯 阅读(3) 评论(0) 推荐(0) 编辑
摘要:正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。re 模块使 Python 语言拥有全部的正则表达式功能。 import re #re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直 阅读全文
posted @ 2017-07-03 16:08 书灯 阅读(0) 评论(0) 推荐(0) 编辑
摘要:首先说一下python中的函数的特性: 一切皆对象; 可以在函数中定义函数,也就是说我们可以创建嵌套函数; 从函数中返回函数; 将函数作为参数传给另一个函数; 而装饰器:简单的说他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短,也更Pythonic(Python范儿)。他们封装一个函数, 阅读全文
posted @ 2017-07-03 16:05 书灯 阅读(4) 评论(0) 推荐(0) 编辑
摘要:(集合)是一个非常有用的数据结构。它与列表list的行为类似,区别在于set不能包含重复的值。 some_list = ['a', 'b', 'c', 'd', 'b', 'a', 'n', 'n'] duplicates = set([x for x in some_list if some_li 阅读全文
posted @ 2017-07-03 15:53 书灯 阅读(1) 评论(0) 推荐(0) 编辑
摘要:Map,Filter 和 Reduce 三个函数能为函数式编程提供便利。 #Map会将一个函数映射到一个输入列表的所有元素上,甚至可以用于一列表的函数。 items = [1,2,3,4,5] squared = [] squared = map(lambda x: x**2, items) pri 阅读全文
posted @ 2017-07-03 15:48 书灯 阅读(3) 评论(0) 推荐(0) 编辑
摘要:生成器也是一种迭代器,但是你只能对其迭代一次。这是因为它们并没有把所有的值存在内存中,而是在运行时生成值。你通过遍历来使用它们,要么用一个“for”循环,要么将它们传递给任意可以进行迭代的函数和结构。大多数时候生成器是以函数来实现的。然而,它们并不返回一个值,而是yield(暂且译作“生出”)一个值 阅读全文
posted @ 2017-07-03 15:43 书灯 阅读(2) 评论(0) 推荐(0) 编辑
摘要:首先让我告诉你, 其实并不是必须写成*args 和**kwargs 只有变量前面的* (星号)才是必须的。 你也可以写成*var 和**vars 而写成 *args 和**kwargs 只是一个通俗的命名约定。 def test_args_kwargs(arg1, arg2, arg3): prin 阅读全文
posted @ 2017-07-03 15:34 书灯 阅读(4) 评论(0) 推荐(0) 编辑
摘要:python基础可以看菜鸟教程:http://www.runoob.com/python3/python3-tutorial.html 主要学习python3的环境搭建,基本数据类型和数据结构,基础的模块等等。把教程上面的例子都学会,基础部分就OK了。 安装时,记得一块安装pip3,这样当你需要引入 阅读全文
posted @ 2017-07-03 15:03 书灯 阅读(0) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示