上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 22 下一页

2018年9月28日

摘要: 源自https://www.cnblogs.com/duanxz/p/3874009.html Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。 文件包括: ①fsimage:元数据镜像文件。存储某一时段 阅读全文

posted @ 2018-09-28 17:22 打杂滴 阅读(238) 评论(0) 推荐(0) 编辑


2018年9月26日

摘要: scala> val df=spark.read.json("/tmp/pdf1json")df: org.apache.spark.sql.DataFrame = [age: bigint, fv: bigint ... 1 more field] scala> df.show+ + + +|ag 阅读全文

posted @ 2018-09-26 14:46 打杂滴 阅读(1441) 评论(0) 推荐(0) 编辑


2018年9月19日

摘要: 使用Oozie的主要目的是为了管理不同类型的作业在Hadoop系统中处理。 作业之间的依赖关系是由有向无环图的形式指定。Oozie 的消费信息以及在工作流中指定负责其执行的顺序正确。这样,用户同时管理保存整个工作流程。此外 Oozie 有指定执行特定工作频率规定。 阅读全文

posted @ 2018-09-19 16:04 打杂滴 阅读(95) 评论(0) 推荐(0) 编辑


2018年9月18日

摘要: 按天划分表的模式 一天一张表如果用户登录日志 login_20180101,login_20180102 在hive中可以使用按天分区,这样查询效率高,而且比按天分表看起来更清新明了 hive> create table loginfo(userid int,logintime timestamp) 阅读全文

posted @ 2018-09-18 13:49 打杂滴 阅读(95) 评论(0) 推荐(0) 编辑

摘要: hive 有限的支持索引,不支持主键外键,可以对表添加索引,也可以为某个分区添加索引.维护索引也要额外的存储空间和计算资源。 创建索引需要指定索引处理器 如 as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' in tab 阅读全文

posted @ 2018-09-18 11:32 打杂滴 阅读(395) 评论(0) 推荐(0) 编辑


2018年9月17日

摘要: Apache Kylin™是由eBay开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 底层存储用的是HBase,数据输入与cube building 阅读全文

posted @ 2018-09-17 13:50 打杂滴 阅读(406) 评论(0) 推荐(0) 编辑

摘要: 已知文本有三列,整理数据,并导入mysql scala> import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.SQLContext scala> val gitrdd=sc.textFile("/tmp/git.txt" 阅读全文

posted @ 2018-09-17 11:45 打杂滴 阅读(339) 评论(0) 推荐(0) 编辑


2018年9月14日

摘要: linux系统中,配置文件路径一般为/etc/my.cnf [root@host ~]# mysql --help|grep my.cnf order of preference, my.cnf, $MYSQL_TCP_PORT,/etc/mysql/my.cnf /etc/my.cnf ~/.my 阅读全文

posted @ 2018-09-14 17:52 打杂滴 阅读(288) 评论(0) 推荐(0) 编辑


2018年9月13日

摘要: mycat 目前最流行的分布式数据库中间插件 mycat能满足数据的大量存储,并能提高查询性能;同样应用程序与数据库解耦,程序只需知道中间件的地址,无需知道底层数据库,数据分布存储,提高读写性能,也可以做高可以用主从备份,主库异常时,备库自动切换为主库。 支持MySQL、Oracle、DB2、SQL 阅读全文

posted @ 2018-09-13 14:38 打杂滴 阅读(217) 评论(0) 推荐(0) 编辑


2018年9月11日

摘要: 何谓数据倾斜?数据倾斜指的是,并行处理的数据集 中,某一部分(如Spark的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 表现为整体任务基本完成,但仍有少量子任务的reduce还在运行。 数据倾斜的原因: 1.join 一个表较小,但key集中, 阅读全文

posted @ 2018-09-11 17:53 打杂滴 阅读(2352) 评论(0) 推荐(0) 编辑


上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 22 下一页

Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes