03 2019 档案

摘要:谓词下推就是指将各个条件先应用到对应的数据上,而不是根据写入的顺序执行,这样就可以先过滤掉部分数据,降低join等一系列操作的数据量级,提高运算速度,如下图: 阅读全文
posted @ 2019-03-31 18:10 云山之巅 阅读(1694) 评论(0) 推荐(0) 编辑
摘要:一.Client模式 提交命令: ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 1000 ./spark-submit --ma 阅读全文
posted @ 2019-03-31 17:48 云山之巅 阅读(1165) 评论(0) 推荐(0) 编辑
摘要:一.安装sasl 安装失败,前往:https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下载对应自己python版本的sasl 本地安装: 二.安装thrift 三.安装thrift-sasl 四.安装PyHive 阅读全文
posted @ 2019-03-30 18:16 云山之巅 阅读(3054) 评论(0) 推荐(0) 编辑
摘要:一.场景 Hive启动不报错,当使用show functions;或create table...时报:FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcep 阅读全文
posted @ 2019-03-30 11:17 云山之巅 阅读(5621) 评论(0) 推荐(0) 编辑
摘要:注意:必须在表定义时指定对应的partition字段。 一.指定分区 1.单分区 建表语句:create table day_table(id int, content string) partitioned by (dt string); 单分区表,按天分区,在表结构中存在id,content,d 阅读全文
posted @ 2019-03-27 20:30 云山之巅 阅读(1724) 评论(0) 推荐(0) 编辑
摘要:一.Client 包含访问HBase的接口并维护cache来加快对HBase的访问。 二.Zookeeper 1.保证任何时候,集群中只有一个master。 2.存储所有Region的寻址入口。 3.实时监控Region server的上线和下线信息,并实时通知Master。 4.存储HBase的s 阅读全文
posted @ 2019-03-26 19:00 云山之巅 阅读(206) 评论(0) 推荐(0) 编辑
摘要:一.简介 HDFS【Hadoop Distributed File System】是Hadoop组件中的分布式存储系统,提供高可靠性、高扩展性和高吞吐率的数据存储服务。 二.存储模型 1.文件线性切割成块【Block】,块分散存储在集群的各个节点中。 2.单一文件Block大小一致,不同的文件可以设 阅读全文
posted @ 2019-03-25 15:38 云山之巅 阅读(336) 评论(0) 推荐(0) 编辑
摘要:电力系统各元件的参数和数学模型 2.1电力系统各元件的参数和数学模型 2.1.1电力系统的参数 电力系统的电气参数包括导线的电阻、电导,以及由交变电磁场引起的电感和电容4个参数。线路的电感以电抗的形式表示,而线路的电容则以电纳的形式表示。 备注:所谓等值网络,是指电力系统或电力网的等效电路。 1.线 阅读全文
posted @ 2019-03-24 10:28 云山之巅 阅读(2323) 评论(0) 推荐(0) 编辑
摘要:一.简介 HBase中Scan从大的层面来看主要有三种常见用法:ScanAPI、TableScanMR以及SnapshotScanMR。三种用法的原理不尽相同,扫描效率当然相差甚远,最重要的是这几种用法适用于不同的应用场景,业务需要根据自己的使用场景选择合适的扫描方式。 二.ScanAPI 一.简介 阅读全文
posted @ 2019-03-23 19:08 云山之巅 阅读(915) 评论(0) 推荐(0) 编辑
摘要:一.异常信息 19/03/21 15:01:52 WARN scheduler.TaskSetManager: Lost task 4.0 in stage 21.0 (TID 14640, hntest07, executor 64) org.apache.hadoop.hbase.client. 阅读全文
posted @ 2019-03-21 20:07 云山之巅 阅读(8310) 评论(0) 推荐(0) 编辑
摘要:一.简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。Kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,本身不 阅读全文
posted @ 2019-03-17 21:58 云山之巅 阅读(222) 评论(0) 推荐(0) 编辑
摘要:1.未被external修饰的是内部表【managed table】,被external修饰的为外部表【external table】。 2.内部表数据由Hive自身管理,外部表数据由HDFS管理。 3.内部表数据存储在hive.metastore.warehouse.dir【默认:/user/hi 阅读全文
posted @ 2019-03-16 16:50 云山之巅 阅读(5445) 评论(0) 推荐(0) 编辑
摘要:电力系统概述 1.电力系统、电力及动力系统 电力系统通常是指发电机、变压器、电力线路、用户等组成的三相交流系统。 由电源向电力负荷中心输送电能的线路,称为输电线路,包含输电线路的电力网称为输电网。而主要担负分配电能任务的线路称为配电线路,包含配电线路的电力网称为配电网。 2.电力系统运行的特点和要求 阅读全文
posted @ 2019-03-15 19:52 云山之巅 阅读(1687) 评论(0) 推荐(0) 编辑
摘要:一.简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十 阅读全文
posted @ 2019-03-13 16:06 云山之巅 阅读(2392) 评论(0) 推荐(0) 编辑
摘要:一.Client提交模式 提交命令: ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadooop2.6.0.jar 1 阅读全文
posted @ 2019-03-10 22:46 云山之巅 阅读(1169) 评论(0) 推荐(0) 编辑
摘要:一.使用数据 二.实现代码 三.计算结果 阅读全文
posted @ 2019-03-09 23:01 云山之巅 阅读(387) 评论(0) 推荐(0) 编辑
摘要:一.HashShuffle 普通机制:产生磁盘小文件的数量为:M(map task number)*R(reduce task number) 过程: 1.map task处理完数据之后,写到buffer缓冲区,buffer的大小为32k,个数与reduce task个数一致 2. 每个buffer 阅读全文
posted @ 2019-03-08 21:42 云山之巅 阅读(756) 评论(0) 推荐(0) 编辑
摘要:一.Spark on yarn模式下,client的模式时没有OOM而cluster模式下出现OOM 异常分析 由于client模型没有出现OOM而cluster模式出现OOM,那么出现OOM的原因必然是Driver引起的。Driver在client模式或cluster模型运行所占用的内存是一致的, 阅读全文
posted @ 2019-03-07 17:44 云山之巅 阅读(862) 评论(0) 推荐(0) 编辑
摘要:一.简介 基于Linked List实现,元素是字符串类型,列表头尾增删快,中间增删慢,增删元素是常态。 元素可以重复出现,最多包含2^32-1个元素。 二.命令 1.说明 1.1 B block 块,阻塞 1.2 L left 左 1.3 R right 右 1.4 X exist 存在 2.弹入 阅读全文
posted @ 2019-03-05 19:19 云山之巅 阅读(188) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示