2019 年 4月随笔档案 - 云山之巅

HBase单机模式部署

摘要：1.上传&解压 2.设置环境变量 3.启用&检验 4.编辑hbase-env.sh 备注：分别指定JDK、HBase、Hadoop的路径！ 5.编辑hbase-site.xml 6.启动hbase 1.启动Hadoop 2.启动HBase 3.验证备注：启动之前需先启动Hadoop！ 7.查看We 阅读全文

posted @ 2019-04-18 21:28 云山之巅阅读(2347) 评论(0) 推荐(0) 编辑

Hive分桶

摘要：1.简介分桶表是对列值取哈希值的方式将不同数据放到不同文件中进行存储。对于hive中每一个表，分区都可以进一步进行分桶。由列的哈希值除以桶的个数来决定数据划分到哪个桶里。 2.适用场景 1.数据抽样【sampling】 2.map-join 3.开启支持分桶配置;set hive.enforce 阅读全文

posted @ 2019-04-17 21:14 云山之巅阅读(258) 评论(0) 推荐(0) 编辑

Hive动态分区

摘要：1.开启支持动态分区 set hive.exec.dynamic.partition=true; --默认为false set hive.exec.dynamic.partition.mode=nostrict; 2.相关参数介绍 set hive.exec.max.dynamic.partitio 阅读全文

posted @ 2019-04-16 21:19 云山之巅阅读(768) 评论(0) 推荐(0) 编辑

Hive参数

摘要：1.hive当中的参数、变量都是以命名空间开头 2.通过

方 式 进 行 引 用 ， 其 中 s y s t e m 、 e n v 下 的 变 量 必 须 以 前 缀 开 头 3. h i v e 参 数 设 置 方 式 1. 修 改 配 置 文 件

${}方式进行引用，其中system、env下的变量必须以前缀开头 3.hive参数设置方式 1.修改配置文件$ {HIVE_HOME}/conf/hive-site.xml 2.启动hive cli时，通过 --hiveconf key=val 阅读全文

posted @ 2019-04-16 21:07 云山之巅阅读(245) 评论(0) 推荐(0) 编辑

Spark MLlib FPGrowth关联规则算法

摘要：一.简介 FPGrowth算法是关联分析算法，它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树（FP-tree），但仍保留项集关联信息。在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成阅读全文

posted @ 2019-04-11 19:55 云山之巅阅读(929) 评论(0) 推荐(0) 编辑

Spark MLlib KMeans 聚类算法

摘要：一.简介 KMeans 算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。二.步骤 1.为待聚类的点寻找聚类中心。 2.计算每个点到聚类中心的距离，将每个点聚类到该点最近的阅读全文

posted @ 2019-04-11 17:40 云山之巅阅读(2224) 评论(0) 推荐(0) 编辑

英语【第一天】

摘要：1.比例 propertion 比例，比重，规模 scale 比例，规模，尺度 2.概率 probability 概率 3.条件 condition 条件，状态，环境 term 学期，条件 requirement 需求，条件 prerequisite 条件，先觉 4.开发 development 开阅读全文

posted @ 2019-04-11 10:33 云山之巅阅读(338) 评论(0) 推荐(0) 编辑

Scala之eq,equals,==的区别

摘要：一.简介根据官方API的定义： final def ==(arg0: Any): Boolean The expression x == that is equivalent to if (x eq null) that eq null else x.equals(that). final def 阅读全文

posted @ 2019-04-09 20:56 云山之巅阅读(890) 评论(0) 推荐(0) 编辑

Spark Streaming流计算特点及代码案例

摘要：一.SparkStreaming简介 SparkStreaming是核心Spark API的扩展，可以实现实时【准实时】数据流的可伸缩、高吞吐及容错处理。数据可以从像Kafka、Flume、HDFS/S3、Twitter或TCP套接字等许多来源获取。并且可以使用高级的算子例如，map,reduce, 阅读全文

posted @ 2019-04-08 20:46 云山之巅阅读(686) 评论(0) 推荐(0) 编辑

Kafka单节点及集群配置安装

摘要：一.单节点 1.上传Kafka安装包到Linux系统【当前为Centos7】。 2.解压，配置conf/server.property。 2.1配置broker.id 2.2配置log.dirs 2.3配置zookeeper.connect 3.启动Zookeeper集群备注：zookeeper集阅读全文

posted @ 2019-04-07 11:11 云山之巅阅读(917) 评论(0) 推荐(0) 编辑

Hadoop3新特性

摘要：1.添加Classpath isolation，防止不同版本的jar包出现冲突。 2.支持Shell重写。 3.支持HDFS中的擦除编码【Erasure Encoding】，默认的EC策略可以节省50%的存储空间，同时还可以承受更多的存储故障。 4.DataNode内部添加了负载均衡【Disk Ba 阅读全文

posted @ 2019-04-05 12:38 云山之巅阅读(399) 评论(0) 推荐(0) 编辑

HDFS副本放置策略

摘要：1.第一个副本放置在上传文件的DataNode上，如果是集群外提交，则随机挑选一个磁盘不太满，CPU不太忙的节点。 2.第二个副本放置在与第一个副本不同的机架上。 3.第三个副本放置在与第二个副本同机架的不同节点上。 4.更多副本随机节点放置。阅读全文

posted @ 2019-04-05 12:29 云山之巅阅读(659) 评论(0) 推荐(0) 编辑

电力系统【第3章：简单电力系统的潮流分布计算】

摘要：3.1电力系统线路运行状况的分析与计算 1.电流或功率从电源向负荷沿电力网流动时，在电力网元件上将产生功率损耗和电压降落。 2.电压降落是指线路始、末端电压的相量差。 3.电压损耗是指线路始、末端电压的数值差。 4.电压偏移是指网络中某一点电压与该网络额定电压的数值差。 5.在电力线路中电能损耗的大阅读全文

posted @ 2019-04-05 11:12 云山之巅阅读(2340) 评论(0) 推荐(0) 编辑

Spark执行流程【资源分配、资源调度、任务调度】

摘要：一.资源分配策略 1.静态分配 Spark程序启动时即一次性分配所有的资源，运行过程中固定不变，直至程序退出。这是一种最简单可靠的分配策略，强烈建议使用这种策略，除非非常确定这种方式无法满足需求。需要注意的是，目前所有模式下都没有在不同Spark程序之间提供内存共享的能力。如果你想使用这种方式来共享阅读全文

posted @ 2019-04-04 19:28 云山之巅阅读(1057) 评论(0) 推荐(0) 编辑

Spark之Pipeline处理模式

摘要：一.简介 Pipeline管道计算模式：只是一种计算思想，在数据处理的整个流程中，就想水从管道流过一下，是顺序执行的。二.特点 1.数据一直在管道中，只有在对RDD进行持久化【cache,persist...】或shuffle write时才会落地。 2.管道中的处理也是懒加载的，只有遇到acti 阅读全文

posted @ 2019-04-04 11:45 云山之巅阅读(3356) 评论(0) 推荐(0) 编辑

Hive之SerDe&Beeline

摘要：一.SerDe SerDe:Serializer and Deserializer 序列化及反序列化，构建在数据存储和执行引擎之间，对两者实现解耦。 Hive通过ROW FORMAT DELIMITED 以及SERDE进行内容的读写。样板： row format :DELIMITED [FIELD 阅读全文

posted @ 2019-04-03 11:41 云山之巅阅读(404) 评论(0) 推荐(0) 编辑

Spark dataframe【KV格式】模拟实现Map操作

摘要：代码实现阅读全文

posted @ 2019-04-01 20:32 云山之巅阅读(3688) 评论(0) 推荐(0) 编辑

云山之巅

------自学是你超越他人使自己变的重要的一种能力！

04 2019 档案

公告

最新随笔

我的标签

积分与排名

随笔分类 (82)

随笔档案 (315)

相册 (11)

阅读排行榜

评论排行榜

推荐排行榜

最新评论