Transkai

2019年8月19日

摘要：题目描述输入一个递增排序的数组和一个数字S，在数组中查找两个数，使得他们的和正好是S，如果有多对数字的和等于S，输出两个数的乘积最小的。输出描述对应每个测试案例，输出两个数，小的先输出。输入一个递增排序的数组和一个数字S，在数组中查找两个数，使得他们的和正好是S，如果有多对数字的和等于S，输阅读全文

posted @ 2019-08-19 09:32 Transkai 阅读(153) 评论(0) 推荐(0) 编辑

2019年8月18日

剑指offer 41.知识迁移能力和为S的连续正数序列

摘要：题目描述小明很喜欢数学,有一天他在做数学作业时,要求计算出9~16的和,他马上就写出了正确答案是100。但是他并不满足于此,他在想究竟有多少种连续的正数序列的和为100(至少包括两个数)。没多久,他就得到另一组连续正数和为100的序列:18,19,20,21,22。现在把问题交给你,你能不能也很快阅读全文

posted @ 2019-08-18 21:12 Transkai 阅读(150) 评论(0) 推荐(0) 编辑

剑指offer 40.知识迁移能力数组中只出现一次的数字

摘要：题目描述一个整型数组里除了两个数字之外，其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。解题思路先将数组进行排序，由于除了两个数字之外，其他的数字都出现了两次，所以排序后的数组的前一个数字与后一个数字相同的话，i=i+2; 前一个数字与后一个数字不相同的话，则表明这个数字只出现一次阅读全文

posted @ 2019-08-18 10:53 Transkai 阅读(159) 评论(0) 推荐(0) 编辑

2019年8月16日

Spark 在yarn上运行模式详解：cluster模式和client模式

摘要： 1. 官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2. 配置安装 2.1.安装hadoop：需要安装HDFS模块和YARN模块，HDFS必须安装，spark运行时要把jar包存放到HDFS上。 2.2.安装Spark：解阅读全文

posted @ 2019-08-16 19:58 Transkai 阅读(4524) 评论(0) 推荐(0) 编辑

Spark SQL JAVA和Scala编写Spark SQL程序实现RDD转换成DataFrame+操作HiveContext+操作Mysql

摘要：一、以编程方式执行Spark SQL查询 1．编写Spark SQL程序实现RDD转换成DataFrame 前面我们学习了如何在Spark Shell中使用SQL完成查询，现在我们通过IDEA编写Spark SQL查询程序。 Spark官网提供了两种方法来实现从RDD转换得到DataFrame，阅读全文

posted @ 2019-08-16 16:20 Transkai 阅读(1039) 评论(0) 推荐(0) 编辑

2019年8月15日

Spark SQL 概述+RDD、DataFrame、DataSet区别+DataFrame和DataSet常用操作

摘要：目标1：掌握Spark SQL原理目标2：掌握DataFrame/DataSet数据结构和使用方式目标3：熟练使用Spark SQL完成计算任务 1． Spark SQL概述 1.1． Spark SQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shar 阅读全文

posted @ 2019-08-15 21:14 Transkai 阅读(3585) 评论(0) 推荐(1) 编辑

2019年8月14日

Spark 原理剖析：Executor+Task+Shuffle+BlockManager+CacheManager+Checkpoint

摘要： Executor原理剖析 Task原理剖析 Shuffle原理剖析 1、在Spark中，什么情况下，会发生shuffle？reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作。2、默认的Shuffle操作的原理剖析3、优化后的Shuf 阅读全文

posted @ 2019-08-14 21:31 Transkai 阅读(331) 评论(0) 推荐(0) 编辑

Spark SparkContext原理+Master主备切换机制、注册机制原理+Worker原理+job触发流程+DAGScheduler

摘要： SparkContext原理 Master主备切换机制 Master注册机制 Worker原理 job触发流程原理 val lines = sc.textFile()val words = lines.flatMap(line => line.split(" "))val pairs = words 阅读全文

posted @ 2019-08-14 20:34 Transkai 阅读(285) 评论(0) 推荐(0) 编辑

Spark 内核架构+宽依赖与窄依赖+基于Yarn的两种提交模式

摘要：一.Spark内核架构 1、Application2、spark-submit3、Driver4、SparkContext5、Master6、Worker7、Executor8、Job9、DAGScheduler10、TaskScheduler11、ShuffleMapTask and Result 阅读全文

posted @ 2019-08-14 15:33 Transkai 阅读(173) 评论(0) 推荐(0) 编辑

Spark RDD高级编程：基于排序机制的wordcount程序+二次排序+topn

摘要：（1）基于排序机制的wordcount程序对于以下文件进行wordcount,并按照出现次数多少排序代码如下：结果如下：（2）二次排序对于以下文件内容 1 52 43 61 32 1 要想得到以下结果可以通过以下代码（3）topn 1、对文本文件内的数字，取最大的前3个。 2、对每个阅读全文

posted @ 2019-08-14 00:19 Transkai 阅读(576) 评论(0) 推荐(0) 编辑

2019年8月13日

Spark RDD持久化原理+共享变量原理（Broadcast Variable和Accumulator）

摘要： 2.4 RDD 持久化 2.4.1 RDD 的缓存 Spark 速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个 RDD 后，每一个节点都将把计算的分片结果保存在内存中，并在对此 RDD 或衍生出的 RDD 进行的其他动作中重用。这使得后续的动作变得更加迅速。RD 阅读全文

posted @ 2019-08-13 17:21 Transkai 阅读(664) 评论(0) 推荐(0) 编辑

Spark RDD工作原理详解+RDD JAVA API编程

摘要：第1章 RDD 概念 1.1 RDD 为什么会产生 RDD：Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石，是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢？ Hadoop 的 MapReduce 是一种基于数据集的工阅读全文

posted @ 2019-08-13 16:22 Transkai 阅读(1235) 评论(0) 推荐(0) 编辑

Spark 程序设计详解

摘要：一、 Spark角色介绍 Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算，比Hadoop中MapReduce计算框架具有更高的实时性，同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目，并成功应用于商业集群中，学习Spark就需要了阅读全文

posted @ 2019-08-13 15:17 Transkai 阅读(375) 评论(0) 推荐(0) 编辑

2019年8月6日

剑指offer 39.知识迁移能力平衡二叉树

摘要：题目描述输入一棵二叉树，判断该二叉树是否是平衡二叉树。解题思路 /后续遍历二叉树，遍历过程中求子树高度，判断是否平衡代码如下 public boolean IsBalanced_Solution(TreeNode root) { return getDepth(root) != -1; } p 阅读全文

posted @ 2019-08-06 15:05 Transkai 阅读(180) 评论(0) 推荐(0) 编辑

2019年8月5日

剑指offer 38.知识迁移能力二叉树的深度

摘要：题目描述输入一棵二叉树，求该树的深度。从根结点到叶结点依次经过的结点（含根、叶结点）形成树的一条路径，最长路径的长度为树的深度。解题思路从跟节点出发，查询左子树的深度，获取右子树的深度，比较一下，取大的，再加一。就是整个二叉树的深度递归的三个条件边界条件：当前节点下，是否还有子节点阅读全文

posted @ 2019-08-05 14:03 Transkai 阅读(136) 评论(0) 推荐(0) 编辑

公告