2019年8月10日

Spark GraphX图形数据分析

摘要: Spark GraphX图形数据分析 图(Graph)的基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构 图数据很好的表达了数据之间的关系 处理的是有向图 图的术语-4 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边的数量 图的 阅读全文

posted @ 2019-08-10 23:13 来勒 阅读(1270) 评论(0) 推荐(0) 编辑

2019年8月1日

Spark sql

摘要: Spark SQL SchemaRDD/DataFrame 介绍 用于结构化数据 Spark SQL运行原理 Catalyst 优化器:将逻辑计划转化成物理计划 Spark SQL API-1重点 SparkContext Spark SQL的编程入口 SparkSession 合并了SQLCont 阅读全文

posted @ 2019-08-01 22:48 来勒 阅读(199) 评论(0) 推荐(0) 编辑

Spark 分布式计算原理

摘要: Spark 分布式计算原理 Spark Shuffle RDD的依赖关系-1(lineage) RDD的依赖关系-2(lineage)?? 宽依赖对比窄依赖 DAG工作原理 根据RDD之间的依赖关系,形成一个DAG(有向无环) RDD持久化-1 cache: 间数据写入缓存 cache()不能再有其 阅读全文

posted @ 2019-08-01 22:45 来勒 阅读(533) 评论(0) 推荐(0) 编辑

spark 算子实例

摘要: RDD转换算子Transformation(lazy):懒汉模式 (转换) 一个数据集分成两个RDD,两个可能合并 map 输入变换函数应用于RDD中所有元素 val a = sc.parallelize(1 to 8) val b = a.map(s=>(s+1)) b.collect flatM 阅读全文

posted @ 2019-08-01 22:15 来勒 阅读(163) 评论(0) 推荐(0) 编辑

2019年7月30日

window scala-2.11.8 安装

摘要: window_scala-2.11.8 安装 1)安装scala-2.11.8 2)配置window环境变量 新建系统变量: 新增变量名:SCALA_HOME 新增变量值:C:\Program Files (x86)\scala 编辑环境变量(PATH) 新增path:%SCALA_HOME%\bi 阅读全文

posted @ 2019-07-30 22:26 来勒 阅读(1434) 评论(0) 推荐(0) 编辑

2019年7月29日

spark 2.3.3 安装

摘要: Spark-2.3.3 安装 第一步:[root@head42 spark]# tar -zxvf spark-2.4.3-bin-hadoop2.6.tgz -C /opt/ 第二步:创建软连接 [root@head42 spark]# ln -s spark-2.4.3-bin-hadoop2. 阅读全文

posted @ 2019-07-29 14:50 来勒 阅读(887) 评论(0) 推荐(0) 编辑

2019年7月26日

安装jdk

摘要: 安装jdk: 1.1 新建文件夹 mkdir software 1.2 在software文件下解压jdk到opt文件夹下 [root@hadoop42 software]# tar -zxvf jdk-8u111-linux-x64.tar.gz -C /opt/ 1.3 使用软连接增加别名jdk 阅读全文

posted @ 2019-07-26 22:58 来勒 阅读(87) 评论(0) 推荐(0) 编辑

2019年7月24日

Logstash-6.2.2安装和Kibana-6.2.2安装:

摘要: Logstash和Kibana安装: Logstash-6.2.2安装 1)解压完毕后需要配置profile的环境变量 末尾追加: export LOGSTASH_HOME=/opt/logstash export PATH=$PATH:$LOGSTASH_HOME/bin Kibana-6.2.2 阅读全文

posted @ 2019-07-24 23:32 来勒 阅读(440) 评论(0) 推荐(0) 编辑

elasticsearch-6.2.2 安装

摘要: Elasticsearch安装: 1)首先我们先创建一个用户:useradd es 修改用户密码:passwd es 2)在root下修改es属主属组:chown -R es:es elasticsearch-6.2.2 在root下:curl -H "Content-Type: applicati 阅读全文

posted @ 2019-07-24 23:29 来勒 阅读(512) 评论(0) 推荐(0) 编辑

mapreduce 基础内容

摘要: MapReduce:分布式计算框架,用来分解大数据量的处理 Map阶段对数据集上的独立元素进行指定的操作,生成键值对形成中间结果,Reduce阶段对中间结果中相同的键的所有值进行规约,以得到最终的结果。 优点: 1)易于编程:简单的实现一些接口 2)可扩展性当计算资源不足时,通过增加机器可以扩展他的 阅读全文

posted @ 2019-07-24 23:23 来勒 阅读(178) 评论(0) 推荐(0) 编辑

导航