2019 年 3月随笔档案 - 云山之巅

摘要：谓词下推就是指将各个条件先应用到对应的数据上，而不是根据写入的顺序执行，这样就可以先过滤掉部分数据，降低join等一系列操作的数据量级，提高运算速度，如下图：阅读全文

posted @ 2019-03-31 18:10 云山之巅阅读(1694) 评论(0) 推荐(0) 编辑

摘要：一.Client模式提交命令： ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 1000 ./spark-submit --ma 阅读全文

posted @ 2019-03-31 17:48 云山之巅阅读(1165) 评论(0) 推荐(0) 编辑

Anaconda安装sasl,thrift,thrift-sasl,PyHive连接Hive

摘要：一.安装sasl 安装失败，前往：https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下载对应自己python版本的sasl 本地安装：二.安装thrift 三.安装thrift-sasl 四.安装PyHive 阅读全文

posted @ 2019-03-30 18:16 云山之巅阅读(3054) 评论(0) 推荐(0) 编辑

Hive之FAILED: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient异常

摘要：一.场景 Hive启动不报错，当使用show functions;或create table...时报：FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcep 阅读全文

posted @ 2019-03-30 11:17 云山之巅阅读(5621) 评论(0) 推荐(0) 编辑

Hive分区

摘要：注意：必须在表定义时指定对应的partition字段。一.指定分区 1.单分区建表语句：create table day_table(id int, content string) partitioned by (dt string); 单分区表，按天分区，在表结构中存在id,content,d 阅读全文

posted @ 2019-03-27 20:30 云山之巅阅读(1724) 评论(0) 推荐(0) 编辑

HBase架构设计

摘要：一.Client 包含访问HBase的接口并维护cache来加快对HBase的访问。二.Zookeeper 1.保证任何时候，集群中只有一个master。 2.存储所有Region的寻址入口。 3.实时监控Region server的上线和下线信息，并实时通知Master。 4.存储HBase的s 阅读全文

posted @ 2019-03-26 19:00 云山之巅阅读(206) 评论(0) 推荐(0) 编辑

HDFS快速入门

摘要：一.简介 HDFS【Hadoop Distributed File System】是Hadoop组件中的分布式存储系统，提供高可靠性、高扩展性和高吞吐率的数据存储服务。二.存储模型 1.文件线性切割成块【Block】，块分散存储在集群的各个节点中。 2.单一文件Block大小一致，不同的文件可以设阅读全文

posted @ 2019-03-25 15:38 云山之巅阅读(336) 评论(0) 推荐(0) 编辑

电力系统【第2章：电力系统各元件的参数和数学模型】

摘要：电力系统各元件的参数和数学模型 2.1电力系统各元件的参数和数学模型 2.1.1电力系统的参数电力系统的电气参数包括导线的电阻、电导，以及由交变电磁场引起的电感和电容4个参数。线路的电感以电抗的形式表示，而线路的电容则以电纳的形式表示。备注：所谓等值网络，是指电力系统或电力网的等效电路。 1.线阅读全文

posted @ 2019-03-24 10:28 云山之巅阅读(2323) 评论(0) 推荐(0) 编辑

HBase最佳实践之Scan

摘要：一.简介 HBase中Scan从大的层面来看主要有三种常见用法：ScanAPI、TableScanMR以及SnapshotScanMR。三种用法的原理不尽相同，扫描效率当然相差甚远，最重要的是这几种用法适用于不同的应用场景，业务需要根据自己的使用场景选择合适的扫描方式。二.ScanAPI 一.简介阅读全文

posted @ 2019-03-23 19:08 云山之巅阅读(915) 评论(0) 推荐(0) 编辑

Spark操作HBase报:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException异常解决方案

摘要：一.异常信息 19/03/21 15:01:52 WARN scheduler.TaskSetManager: Lost task 4.0 in stage 21.0 (TID 14640, hntest07, executor 64) org.apache.hadoop.hbase.client. 阅读全文

posted @ 2019-03-21 20:07 云山之巅阅读(8310) 评论(0) 推荐(0) 编辑

Kafka快速入门

摘要：一.简介 Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。Kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式，先进先出（FIFO）保证顺序，本身不阅读全文

posted @ 2019-03-17 21:58 云山之巅阅读(222) 评论(0) 推荐(0) 编辑

Hive内部表与外部表的区别

摘要：1.未被external修饰的是内部表【managed table】，被external修饰的为外部表【external table】。 2.内部表数据由Hive自身管理，外部表数据由HDFS管理。 3.内部表数据存储在hive.metastore.warehouse.dir【默认:/user/hi 阅读全文

posted @ 2019-03-16 16:50 云山之巅阅读(5445) 评论(0) 推荐(0) 编辑

电力系统【第1章：电力系统概述】

摘要：电力系统概述 1.电力系统、电力及动力系统电力系统通常是指发电机、变压器、电力线路、用户等组成的三相交流系统。由电源向电力负荷中心输送电能的线路，称为输电线路，包含输电线路的电力网称为输电网。而主要担负分配电能任务的线路称为配电线路，包含配电线路的电力网称为配电网。 2.电力系统运行的特点和要求阅读全文

posted @ 2019-03-15 19:52 云山之巅阅读(1687) 评论(0) 推荐(0) 编辑

Hive快速入门

摘要：一.简介 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十阅读全文

posted @ 2019-03-13 16:06 云山之巅阅读(2392) 评论(0) 推荐(0) 编辑

Spark Standalone 提交模式

摘要：一.Client提交模式提交命令： ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadooop2.6.0.jar 1 阅读全文

posted @ 2019-03-10 22:46 云山之巅阅读(1169) 评论(0) 推荐(0) 编辑

Spark WordCount 文档词频计数

摘要：一.使用数据二.实现代码三.计算结果阅读全文

posted @ 2019-03-09 23:01 云山之巅阅读(387) 评论(0) 推荐(0) 编辑

Spark Shuffle原理分析及性能优化

摘要：一.HashShuffle 普通机制：产生磁盘小文件的数量为：M(map task number)*R(reduce task number) 过程： 1.map task处理完数据之后，写到buffer缓冲区，buffer的大小为32k，个数与reduce task个数一致 2. 每个buffer 阅读全文

posted @ 2019-03-08 21:42 云山之巅阅读(756) 评论(0) 推荐(0) 编辑

Spark性能问题分析及优化【OOM、Stack Overflow】

摘要：一.Spark on yarn模式下，client的模式时没有OOM而cluster模式下出现OOM 异常分析由于client模型没有出现OOM而cluster模式出现OOM，那么出现OOM的原因必然是Driver引起的。Driver在client模式或cluster模型运行所占用的内存是一致的，阅读全文

posted @ 2019-03-07 17:44 云山之巅阅读(862) 评论(0) 推荐(0) 编辑

Redis常用命令【列表】

摘要：一.简介基于Linked List实现，元素是字符串类型，列表头尾增删快，中间增删慢，增删元素是常态。元素可以重复出现，最多包含2^32-1个元素。二.命令 1.说明 1.1 B block 块，阻塞 1.2 L left 左 1.3 R right 右 1.4 X exist 存在 2.弹入阅读全文

posted @ 2019-03-05 19:19 云山之巅阅读(188) 评论(0) 推荐(0) 编辑

云山之巅

------自学是你超越他人使自己变的重要的一种能力！

03 2019 档案

公告

最新随笔

我的标签

积分与排名

随笔分类 (82)

随笔档案 (315)

相册 (11)

阅读排行榜

评论排行榜

推荐排行榜

最新评论