04 2019 档案
摘要:1.上传&解压 2.设置环境变量 3.启用&检验 4.编辑hbase-env.sh 备注:分别指定JDK、HBase、Hadoop的路径! 5.编辑hbase-site.xml 6.启动hbase 1.启动Hadoop 2.启动HBase 3.验证 备注:启动之前需先启动Hadoop! 7.查看We
阅读全文
摘要:1.简介 分桶表是对列值取哈希值的方式将不同数据放到不同文件中进行存储。对于hive中每一个表,分区都可以进一步进行分桶。由列的哈希值除以桶的个数来决定数据划分到哪个桶里。 2.适用场景 1.数据抽样【sampling】 2.map-join 3.开启支持分桶 配置;set hive.enforce
阅读全文
摘要:1.开启支持动态分区 set hive.exec.dynamic.partition=true; --默认为false set hive.exec.dynamic.partition.mode=nostrict; 2.相关参数介绍 set hive.exec.max.dynamic.partitio
阅读全文
摘要:1.hive当中的参数、变量都是以命名空间开头 2.通过{HIVE_HOME}/conf/hive-site.xml 2.启动hive cli时,通过 --hiveconf key=val
阅读全文
摘要:一.简介 FPGrowth算法是关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成
阅读全文
摘要:一.简介 KMeans 算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 二.步骤 1.为待聚类的点寻找聚类中心。 2.计算每个点到聚类中心的距离,将每个点聚类到该点最近的
阅读全文
摘要:1.比例 propertion 比例,比重,规模 scale 比例,规模,尺度 2.概率 probability 概率 3.条件 condition 条件,状态,环境 term 学期,条件 requirement 需求,条件 prerequisite 条件,先觉 4.开发 development 开
阅读全文
摘要:一.简介 根据官方API的定义: final def ==(arg0: Any): Boolean The expression x == that is equivalent to if (x eq null) that eq null else x.equals(that). final def
阅读全文
摘要:一.SparkStreaming简介 SparkStreaming是核心Spark API的扩展,可以实现实时【准实时】数据流的可伸缩、高吞吐及容错处理。数据可以从像Kafka、Flume、HDFS/S3、Twitter或TCP套接字等许多来源获取。并且可以使用高级的算子例如,map,reduce,
阅读全文
摘要:一.单节点 1.上传Kafka安装包到Linux系统【当前为Centos7】。 2.解压,配置conf/server.property。 2.1配置broker.id 2.2配置log.dirs 2.3配置zookeeper.connect 3.启动Zookeeper集群 备注:zookeeper集
阅读全文
摘要:1.添加Classpath isolation,防止不同版本的jar包出现冲突。 2.支持Shell重写。 3.支持HDFS中的擦除编码【Erasure Encoding】,默认的EC策略可以节省50%的存储空间,同时还可以承受更多的存储故障。 4.DataNode内部添加了负载均衡【Disk Ba
阅读全文
摘要:1.第一个副本放置在上传文件的DataNode上,如果是集群外提交,则随机挑选一个磁盘不太满,CPU不太忙的节点。 2.第二个副本放置在与第一个副本不同的机架上。 3.第三个副本放置在与第二个副本同机架的不同节点上。 4.更多副本随机节点放置。
阅读全文
摘要:3.1电力系统线路运行状况的分析与计算 1.电流或功率从电源向负荷沿电力网流动时,在电力网元件上将产生功率损耗和电压降落。 2.电压降落是指线路始、末端电压的相量差。 3.电压损耗是指线路始、末端电压的数值差。 4.电压偏移是指网络中某一点电压与该网络额定电压的数值差。 5.在电力线路中电能损耗的大
阅读全文
摘要:一.资源分配策略 1.静态分配 Spark程序启动时即一次性分配所有的资源,运行过程中固定不变,直至程序退出。这是一种最简单可靠的分配策略,强烈建议使用这种策略,除非非常确定这种方式无法满足需求。需要注意的是,目前所有模式下都没有在不同Spark程序之间提供内存共享的能力。如果你想使用这种方式来共享
阅读全文
摘要:一.简介 Pipeline管道计算模式:只是一种计算思想,在数据处理的整个流程中,就想水从管道流过一下,是顺序执行的。 二.特点 1.数据一直在管道中,只有在对RDD进行持久化【cache,persist...】或shuffle write时才会落地。 2.管道中的处理也是懒加载的,只有遇到acti
阅读全文
摘要:一.SerDe SerDe:Serializer and Deserializer 序列化及反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。 Hive通过ROW FORMAT DELIMITED 以及SERDE进行内容的读写。 样板: row format :DELIMITED [FIELD
阅读全文