上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页
摘要: 1.开启支持动态分区 set hive.exec.dynamic.partition=true; --默认为false set hive.exec.dynamic.partition.mode=nostrict; 2.相关参数介绍 set hive.exec.max.dynamic.partitio 阅读全文
posted @ 2019-04-16 21:19 云山之巅 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 1.hive当中的参数、变量都是以命名空间开头 2.通过${}方式进行引用,其中system、env下的变量必须以前缀开头 3.hive参数设置方式 1.修改配置文件${HIVE_HOME}/conf/hive-site.xml 2.启动hive cli时,通过 --hiveconf key=val 阅读全文
posted @ 2019-04-16 21:07 云山之巅 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 一.简介 FPGrowth算法是关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成 阅读全文
posted @ 2019-04-11 19:55 云山之巅 阅读(920) 评论(0) 推荐(0) 编辑
摘要: 一.简介 KMeans 算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 二.步骤 1.为待聚类的点寻找聚类中心。 2.计算每个点到聚类中心的距离,将每个点聚类到该点最近的 阅读全文
posted @ 2019-04-11 17:40 云山之巅 阅读(2216) 评论(0) 推荐(0) 编辑
摘要: 1.比例 propertion 比例,比重,规模 scale 比例,规模,尺度 2.概率 probability 概率 3.条件 condition 条件,状态,环境 term 学期,条件 requirement 需求,条件 prerequisite 条件,先觉 4.开发 development 开 阅读全文
posted @ 2019-04-11 10:33 云山之巅 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 一.简介 根据官方API的定义: final def ==(arg0: Any): Boolean The expression x == that is equivalent to if (x eq null) that eq null else x.equals(that). final def 阅读全文
posted @ 2019-04-09 20:56 云山之巅 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 一.SparkStreaming简介 SparkStreaming是核心Spark API的扩展,可以实现实时【准实时】数据流的可伸缩、高吞吐及容错处理。数据可以从像Kafka、Flume、HDFS/S3、Twitter或TCP套接字等许多来源获取。并且可以使用高级的算子例如,map,reduce, 阅读全文
posted @ 2019-04-08 20:46 云山之巅 阅读(673) 评论(0) 推荐(0) 编辑
摘要: 一.单节点 1.上传Kafka安装包到Linux系统【当前为Centos7】。 2.解压,配置conf/server.property。 2.1配置broker.id 2.2配置log.dirs 2.3配置zookeeper.connect 3.启动Zookeeper集群 备注:zookeeper集 阅读全文
posted @ 2019-04-07 11:11 云山之巅 阅读(907) 评论(0) 推荐(0) 编辑
摘要: 1.添加Classpath isolation,防止不同版本的jar包出现冲突。 2.支持Shell重写。 3.支持HDFS中的擦除编码【Erasure Encoding】,默认的EC策略可以节省50%的存储空间,同时还可以承受更多的存储故障。 4.DataNode内部添加了负载均衡【Disk Ba 阅读全文
posted @ 2019-04-05 12:38 云山之巅 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 1.第一个副本放置在上传文件的DataNode上,如果是集群外提交,则随机挑选一个磁盘不太满,CPU不太忙的节点。 2.第二个副本放置在与第一个副本不同的机架上。 3.第三个副本放置在与第二个副本同机架的不同节点上。 4.更多副本随机节点放置。 阅读全文
posted @ 2019-04-05 12:29 云山之巅 阅读(640) 评论(0) 推荐(0) 编辑
摘要: 3.1电力系统线路运行状况的分析与计算 1.电流或功率从电源向负荷沿电力网流动时,在电力网元件上将产生功率损耗和电压降落。 2.电压降落是指线路始、末端电压的相量差。 3.电压损耗是指线路始、末端电压的数值差。 4.电压偏移是指网络中某一点电压与该网络额定电压的数值差。 5.在电力线路中电能损耗的大 阅读全文
posted @ 2019-04-05 11:12 云山之巅 阅读(2261) 评论(0) 推荐(0) 编辑
摘要: 一.资源分配策略 1.静态分配 Spark程序启动时即一次性分配所有的资源,运行过程中固定不变,直至程序退出。这是一种最简单可靠的分配策略,强烈建议使用这种策略,除非非常确定这种方式无法满足需求。需要注意的是,目前所有模式下都没有在不同Spark程序之间提供内存共享的能力。如果你想使用这种方式来共享 阅读全文
posted @ 2019-04-04 19:28 云山之巅 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 一.简介 Pipeline管道计算模式:只是一种计算思想,在数据处理的整个流程中,就想水从管道流过一下,是顺序执行的。 二.特点 1.数据一直在管道中,只有在对RDD进行持久化【cache,persist...】或shuffle write时才会落地。 2.管道中的处理也是懒加载的,只有遇到acti 阅读全文
posted @ 2019-04-04 11:45 云山之巅 阅读(3351) 评论(0) 推荐(0) 编辑
摘要: 一.SerDe SerDe:Serializer and Deserializer 序列化及反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。 Hive通过ROW FORMAT DELIMITED 以及SERDE进行内容的读写。 样板: row format :DELIMITED [FIELD 阅读全文
posted @ 2019-04-03 11:41 云山之巅 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 代码实现 阅读全文
posted @ 2019-04-01 20:32 云山之巅 阅读(3686) 评论(0) 推荐(0) 编辑
摘要: 谓词下推就是指将各个条件先应用到对应的数据上,而不是根据写入的顺序执行,这样就可以先过滤掉部分数据,降低join等一系列操作的数据量级,提高运算速度,如下图: 阅读全文
posted @ 2019-03-31 18:10 云山之巅 阅读(1687) 评论(0) 推荐(0) 编辑
摘要: 一.Client模式 提交命令: ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 1000 ./spark-submit --ma 阅读全文
posted @ 2019-03-31 17:48 云山之巅 阅读(1164) 评论(0) 推荐(0) 编辑
摘要: 一.安装sasl 安装失败,前往:https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下载对应自己python版本的sasl 本地安装: 二.安装thrift 三.安装thrift-sasl 四.安装PyHive 阅读全文
posted @ 2019-03-30 18:16 云山之巅 阅读(2982) 评论(0) 推荐(0) 编辑
摘要: 一.场景 Hive启动不报错,当使用show functions;或create table...时报:FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcep 阅读全文
posted @ 2019-03-30 11:17 云山之巅 阅读(5505) 评论(0) 推荐(0) 编辑
摘要: 注意:必须在表定义时指定对应的partition字段。 一.指定分区 1.单分区 建表语句:create table day_table(id int, content string) partitioned by (dt string); 单分区表,按天分区,在表结构中存在id,content,d 阅读全文
posted @ 2019-03-27 20:30 云山之巅 阅读(1721) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页