随笔分类 -  开源大数据

摘要:介绍 做数据分析的时候,经常会用到hive -e "sql" > xxx.txt或者最原始的hive命令行来获得查询结果,然后再将查询结果放到Excel等工具中,但是如果查询的字段太多,这时候将查询结果放到Excel会经常会碰到错位问题,很是头疼. 解决方案一:借助linux管道替换输出分隔符 样例 阅读全文
posted @ 2021-01-11 17:43 DB乐之者 阅读(596) 评论(0) 推荐(0) 编辑
摘要:简介 with...as...需要定义一个sql片段,会将这个片段产生的结果集保存在内存中, 后续的sql均可以访问这个结果集和,作用与视图或临时表类似. 语法说明 with...as...必须和其他语句一起使用 with...as...是一次性的 with...as...的示例如下: -- wit 阅读全文
posted @ 2020-12-16 16:44 DB乐之者 阅读(1522) 评论(0) 推荐(0) 编辑
摘要:背景 由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨,达到了硬盘的预警,不得已必须指定策略定期删除日志已保证服务器硬盘空间。 spark的日志分类 spark的日志都有那些: 1.event(history) 2.work 3.executor 解决方法 方案1 一开始为了快 阅读全文
posted @ 2020-11-18 18:17 DB乐之者 阅读(2309) 评论(1) 推荐(0) 编辑
摘要:本文使用Spark的版本为:spark-2.4.0-bin-hadoop2.7.tgz。 spark的集群采用3台机器进行搭建,机器分别是server01,server02,server03。 其中:server01,server02设置为Master,server01,server02,serve 阅读全文
posted @ 2020-11-12 19:08 DB乐之者 阅读(337) 评论(0) 推荐(1) 编辑
摘要:python如何访问hive,接下来我将遇到问题进行总结 (说明一下:这篇文章中的各种坑的解决,翻阅了网上无数的帖子,最好一GIT上面一个帖子的角落里面带了这么一句,否则很容易翻船。但是由于帖子太多,所以我就不一一帖出来了) 首先是选组件,我选择的是使用:impala+Python3.7来连接Had 阅读全文
posted @ 2020-08-26 16:31 DB乐之者 阅读(748) 评论(0) 推荐(0) 编辑
摘要:公司hadoop集群迁移,需要迁移所有的表结构及比较重要的表的数据(跨云服务机房,源广州机房,目标北京机房) 1、迁移表结构 1)、老hive中导出表结构 1 hive -e "use db;show tables;" > tables.txt 1 2 3 4 5 6 7 #!/bin/bash c 阅读全文
posted @ 2020-07-15 14:33 DB乐之者 阅读(4646) 评论(0) 推荐(0) 编辑
摘要:Elasticsearch 性能优化 Elasticsearch 是当前流行的企业级搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。作为一个开箱即用的产品,在生产环境上线之后,我们其实不一定能确保其的性能和稳定性。如何根据实际情况提高服务的性能,其实有很多技巧。这章我们 阅读全文
posted @ 2020-07-13 10:34 DB乐之者 阅读(4332) 评论(0) 推荐(1) 编辑
摘要:ES在查询过程中比较多遇到符合查询,既需要多个字段过滤也需要特殊情况处理,本文简单介绍几种查询组合方便快捷查询ES。 bool(组合查询) must 所有的语句都 必须(must) 匹配,与 AND 、= 等价。 must_not 所有的语句都 不能(must not) 匹配,与 NOT 、!= 等 阅读全文
posted @ 2020-06-10 10:43 DB乐之者 阅读(7969) 评论(0) 推荐(0) 编辑
摘要:准备工作 创建测试表 CREATE TABLE my_table ( rowkey VARCHAR NOT NULL PRIMARY KEY, v1 VARCHAR, v2 VARCHAR, v3 VARCHAR ); UPSERT INTO my_table values('1','value1' 阅读全文
posted @ 2020-04-20 10:34 DB乐之者 阅读(851) 评论(0) 推荐(0) 编辑
摘要:spark shuffle参数调优 spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才 阅读全文
posted @ 2020-03-26 23:09 DB乐之者 阅读(943) 评论(0) 推荐(0) 编辑
摘要:一、Hbase的六大特点: (1)、表大:一个表可以有数亿行,上百万列。 (2)、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态增加,同一个表中的不同行的可以有截然不同的列。 (3)、面向列:HBase是面向列的的存储和权限控制,列族独立索引。 (4)、稀疏:空(null)列并不占 阅读全文
posted @ 2020-03-26 19:53 DB乐之者 阅读(2698) 评论(0) 推荐(0) 编辑
摘要:1) 窗口函数 Lag, Lead, First_value,Last_valueLag, Lead、这两个函数为常用的窗口函数,可以返回上下数据行的数据. LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值, 与LAG 阅读全文
posted @ 2020-03-25 17:20 DB乐之者 阅读(1821) 评论(0) 推荐(0) 编辑
摘要:一、数据仓库建模的意义 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。 数据模型就是数据组织和存储 阅读全文
posted @ 2020-03-25 17:16 DB乐之者 阅读(437) 评论(0) 推荐(0) 编辑
摘要:Spark dataframe api简介 spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。合 阅读全文
posted @ 2020-03-23 17:35 DB乐之者 阅读(275) 评论(0) 推荐(0) 编辑
摘要:Spark DataFrame基础操作 创建SparkSession和SparkContext val spark = SparkSession.builder.master("local").getOrCreate() val sc = spark.sparkContext 从数组创建DataFr 阅读全文
posted @ 2020-03-23 17:22 DB乐之者 阅读(455) 评论(0) 推荐(0) 编辑
摘要:1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始,DF 阅读全文
posted @ 2020-03-16 12:05 DB乐之者 阅读(4863) 评论(0) 推荐(0) 编辑
摘要:什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe 阅读全文
posted @ 2020-03-11 09:52 DB乐之者 阅读(432) 评论(0) 推荐(0) 编辑
摘要:Data Vault 简介 Data Vault 2.0 不仅是建模技术,也提供了一整套数据仓库项目的方法论。它能提供一套非常可行的方案来满足数据仓库项目中对于历史轨迹和审核两个方面的需求。 多年来,商业智能(BI)项目一直并将继续在瀑布模型下运行。它是由每个阶段的长时间延伸的序列定义的,该序列需要 阅读全文
posted @ 2020-03-09 16:07 DB乐之者 阅读(5098) 评论(1) 推荐(0) 编辑
摘要:一、数据仓库的相关概念 1.什么是数据仓库 数据仓库一种面向分析的环境,是一种把相关的各种数据转换成有商业价值的信息的技术。 数据仓库理论的创始人W.H.Inmon在其《Building the Data Warehouse》一书中,给出了数据仓库的四个基本特征:面向主题,数据是集成的,数据是不可更 阅读全文
posted @ 2020-03-03 13:02 DB乐之者 阅读(3480) 评论(0) 推荐(0) 编辑
摘要:hadoop使用lzo压缩,block块大小为512MB环境:hadoop2.6+hive1.2.1 lzo压缩启动压缩set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true; 1、 阅读全文
posted @ 2020-02-25 13:26 DB乐之者 阅读(375) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示