随笔分类 -  大数据

摘要:上文提到了Superset 0.37的在线安装方式,只需要更新pip,然后pip install就可以了。但是在生产环境中,特别是内网环境中,很多时候是没有外网的,这时候就需要采取离线安装的方式。 本文将详细介绍在Linux系统中离线安装Superset的全过程,并整理了安装过程中遇到的错误。 下载 阅读全文
posted @ 2020-09-16 08:24 独孤风 阅读(2510) 评论(0) 推荐(0) 编辑
摘要:Windows系统安装Superset 0.37 Superset 是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,其通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。 windows系统下安装superset大同小异,本文通过W 阅读全文
posted @ 2020-09-15 10:06 独孤风 阅读(3122) 评论(2) 推荐(0) 编辑
摘要:Superset 0.37,增加可视化插件,行级权限控制 使用Superset已经有一段时间,其良好的体验与丰富的图表功能节省了大量的时间。但是对于权限,自定义图表,图表下载,报警邮件一直没有很好的支持,大部分公司对于这些功能的实现还是需要大量的二次开发,费时费力。 近日Superset 0.37 阅读全文
posted @ 2020-09-14 08:46 独孤风 阅读(2295) 评论(0) 推荐(0) 编辑
摘要:查看所有分区 show partitions 表名; 删除一般会有两种方案 1、直接删除hdfs文件 亲测删除hdfs路径后 查看分区还是能看到此分区 可能会引起其他问题 此方法不建议 2、 使用删除分区命令(推荐) alter table 表名 drop partition (date=20200 阅读全文
posted @ 2020-09-09 10:10 独孤风 阅读(3541) 评论(0) 推荐(0) 编辑
摘要:如何快速的投入到Flink的学习当中,很多人在搭建环境过程中浪费了太多的时间。一套一劳永逸的本机Flink开发环境可以让我们快速的投入到Flink的学习中去,将精力用在Flink的原理,实战。这也对于工作和面试有着巨大帮助。 ​ 本文将利用Flink的官方练习环境,在本地Windows系统中快速的搭 阅读全文
posted @ 2020-09-07 09:50 独孤风 阅读(5504) 评论(0) 推荐(0) 编辑
摘要:MapReduce Google File System提供了大数据存储的方案,这也为后来HDFS提供了理论依据,但是在大数据存储之上的大数据计算则不得不提到MapReduce。 虽然现在通过框架的不断发展,MapReduce已经渐渐的淡出人们的视野,越来越多的框架提供了简单的SQL语法来进行大数据 阅读全文
posted @ 2020-09-01 09:08 独孤风 阅读(749) 评论(0) 推荐(0) 编辑
摘要:Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable。 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Goo 阅读全文
posted @ 2020-08-21 08:53 独孤风 阅读(574) 评论(0) 推荐(0) 编辑
摘要:阿里巴巴一直在面向未来探索B类新电商模式,并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心,缺少买家维度的数字化经营体系是不完整的。平台场景目标群体及场景间买家差异性尚不明确,客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。同时,客 阅读全文
posted @ 2020-08-14 09:00 独孤风 阅读(1516) 评论(0) 推荐(0) 编辑
摘要:近日Kafka2.6版本发布,距离2.5.0发布只过去了不到四个月的时间。 Kafka 2.6.0包含许多重要的新功能。以下是一些重要更改的摘要: 默认情况下,已为Java 11或更高版本启用TLSv1.3 性能显着提高,尤其是当代理具有大量分区时 扩展Kafka Streams的应用程序更便捷 K 阅读全文
posted @ 2020-08-11 08:48 独孤风 阅读(1635) 评论(0) 推荐(0) 编辑
摘要:Hive删除操作主要分为几大类:删除数据(保留表)、删除库表、删除分区。 一、仅删除表中数据,保留表结构 hive> truncate table 表名; truncate操作用于删除指定表中的所有行,相当于delete from table where 1=1.表达的是一个意思。 注意:trunc 阅读全文
posted @ 2020-08-07 14:15 独孤风 阅读(29807) 评论(0) 推荐(1) 编辑
摘要:虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口,事件时间虽然支撑较少,但还是可以满足部分的实时计算 阅读全文
posted @ 2020-08-06 08:35 独孤风 阅读(887) 评论(0) 推荐(0) 编辑
摘要:1.查看分区 hive> show partitions table_name; 2.查看分区更新时间 获取hdfs路径 hive> desc formatted table_name; 通过dfs -ls < hdfs path>命令查看数据文件最新更新时间 hive> dfs -ls /user 阅读全文
posted @ 2020-08-05 16:51 独孤风 阅读(4277) 评论(0) 推荐(0) 编辑
摘要:若hdfs上已经存在文件,要强制覆盖,用 -f 命令 如: hadoop fs -put -f file.name /home/test/ 阅读全文
posted @ 2020-08-05 16:39 独孤风 阅读(2243) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算 Apache 阅读全文
posted @ 2020-08-04 08:51 独孤风 阅读(3241) 评论(0) 推荐(0) 编辑
摘要:流处理正变得像数据处理一样流行。流处理已经超出了其原来的实时数据处理的范畴,它正在成为一种提供数据处理(包括批处理),实时应用乃至分布式事务的新方法的技术。 1、什么是流处理? 流处理是不断合并新数据以计算结果的动作。在流处理中,输入数据不受限制,并且没有预定的开始或结束。它只是形成一系列事件,这些 阅读全文
posted @ 2020-07-07 08:32 独孤风 阅读(6182) 评论(0) 推荐(1) 编辑
摘要:Plink是一个基于Flink的流处理平台,旨在基于 [Apache Flink]封装构建上层平台。 提供常见的作业管理功能。如作业的创建,删除,编辑,更新,保存,启动,停止,重启,管理,多作业模板配置等。 Flink SQL 编辑提交功能。如 SQL 的在线开发,智能提示,格式化,语法校验,保存, 阅读全文
posted @ 2020-07-03 08:01 独孤风 阅读(1023) 评论(0) 推荐(0) 编辑
摘要:在开发好用户标签以后,如何将标签应用到实际其实是一个很重要的问题。只有做好产品的设计才能让标签发挥真正的价值,本文将介绍用户画像的产品化过程。 一、标签展示 首先是标签展示功能,这个主要供业务人员和研发人员使用,是为了更直观的看见整个的用户标签体系。 不同的标签体系会有不同的层级,那么这个页面的设计 阅读全文
posted @ 2020-06-29 08:18 独孤风 阅读(2550) 评论(1) 推荐(5) 编辑
摘要:Flink 1.9.0及更高版本支持Python,也就是PyFlink。 在最新版本的Flink 1.10中,PyFlink支持Python用户定义的函数,使您能够在Table API和SQL中注册和使用这些函数。但是,听完所有这些后,您可能仍然想知道PyFlink的架构到底是什么?作为PyFlin 阅读全文
posted @ 2020-06-24 08:34 独孤风 阅读(13820) 评论(1) 推荐(1) 编辑
摘要:近日,在Spark开源十周年之际,Spark3.0发布了,这个版本大家也是期盼已久。登录Spark官网,最新的版本已经是3.0。而且不出意外,对于Structured Streaming进行了再一次的加强,这样Spark和Flink在实时计算领域的竞争,恐怕会愈演愈烈。 Spark 3.0 主要的新 阅读全文
posted @ 2020-06-22 08:06 独孤风 阅读(965) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示