大数据 - 随笔分类(第4页) - 独孤风

离线安装Superset 0.37

摘要：上文提到了Superset 0.37的在线安装方式，只需要更新pip，然后pip install就可以了。但是在生产环境中，特别是内网环境中，很多时候是没有外网的，这时候就需要采取离线安装的方式。本文将详细介绍在Linux系统中离线安装Superset的全过程，并整理了安装过程中遇到的错误。下载阅读全文

posted @ 2020-09-16 08:24 独孤风阅读(2510) 评论(0) 推荐(0) 编辑

Windows系统快速安装Superset 0.37

摘要：Windows系统安装Superset 0.37 Superset 是一款由 Airbnb 开源的“现代化的企业级 BI（商业智能） Web 应用程序”，其通过创建和分享 dashboard，为数据分析提供了轻量级的数据查询和可视化方案。 windows系统下安装superset大同小异，本文通过W 阅读全文

posted @ 2020-09-15 10:06 独孤风阅读(3122) 评论(2) 推荐(0) 编辑

Superset 0.37 发布——颜值最高的数据可视化平台

摘要：Superset 0.37，增加可视化插件，行级权限控制使用Superset已经有一段时间，其良好的体验与丰富的图表功能节省了大量的时间。但是对于权限，自定义图表，图表下载，报警邮件一直没有很好的支持，大部分公司对于这些功能的实现还是需要大量的二次开发，费时费力。近日Superset 0.37 阅读全文

posted @ 2020-09-14 08:46 独孤风阅读(2295) 评论(0) 推荐(0) 编辑

Hive查看，删除分区

摘要：查看所有分区 show partitions 表名; 删除一般会有两种方案 1、直接删除hdfs文件亲测删除hdfs路径后查看分区还是能看到此分区可能会引起其他问题此方法不建议 2、使用删除分区命令（推荐） alter table 表名 drop partition (date=20200 阅读全文

posted @ 2020-09-09 10:10 独孤风阅读(3541) 评论(0) 推荐(0) 编辑

超详细，Windows系统搭建Flink官方练习环境

摘要：如何快速的投入到Flink的学习当中，很多人在搭建环境过程中浪费了太多的时间。一套一劳永逸的本机Flink开发环境可以让我们快速的投入到Flink的学习中去，将精力用在Flink的原理，实战。这也对于工作和面试有着巨大帮助。本文将利用Flink的官方练习环境，在本地Windows系统中快速的搭阅读全文

posted @ 2020-09-07 09:50 独孤风阅读(5504) 评论(0) 推荐(0) 编辑

大数据计算的基石——MapReduce

摘要：MapReduce Google File System提供了大数据存储的方案，这也为后来HDFS提供了理论依据，但是在大数据存储之上的大数据计算则不得不提到MapReduce。虽然现在通过框架的不断发展，MapReduce已经渐渐的淡出人们的视野，越来越多的框架提供了简单的SQL语法来进行大数据阅读全文

posted @ 2020-09-01 09:08 独孤风阅读(749) 评论(0) 推荐(0) 编辑

大数据理论篇HDFS的基石——Google File System

摘要：Google File System 但凡是要开始讲大数据的，都绕不开最初的Google三驾马车：Google File System（GFS）， MapReduce，BigTable。为这一切的基础的Google File System，不但没有任何倒台的迹象，还在不断的演化，事实上支撑着Goo 阅读全文

posted @ 2020-08-21 08:53 独孤风阅读(574) 评论(0) 推荐(0) 编辑

揭秘阿里巴巴的客群画像

摘要：阿里巴巴一直在面向未来探索B类新电商模式，并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心，缺少买家维度的数字化经营体系是不完整的。平台场景目标群体及场景间买家差异性尚不明确，客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。同时，客阅读全文

posted @ 2020-08-14 09:00 独孤风阅读(1516) 评论(0) 推荐(0) 编辑

Kafka2.6.0发布——性能大幅提升

摘要：近日Kafka2.6版本发布，距离2.5.0发布只过去了不到四个月的时间。 Kafka 2.6.0包含许多重要的新功能。以下是一些重要更改的摘要：默认情况下，已为Java 11或更高版本启用TLSv1.3 性能显着提高，尤其是当代理具有大量分区时扩展Kafka Streams的应用程序更便捷 K 阅读全文

posted @ 2020-08-11 08:48 独孤风阅读(1635) 评论(0) 推荐(0) 编辑

Hive操作——删除表(drop、truncate)

摘要：Hive删除操作主要分为几大类：删除数据（保留表）、删除库表、删除分区。一、仅删除表中数据，保留表结构 hive> truncate table 表名; truncate操作用于删除指定表中的所有行，相当于delete from table where 1=1.表达的是一个意思。注意：trunc 阅读全文

posted @ 2020-08-07 14:15 独孤风阅读(29807) 评论(0) 推荐(1) 编辑

Spark Streaming——Spark第一代实时计算引擎

摘要：虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足部分的实时计算阅读全文

posted @ 2020-08-06 08:35 独孤风阅读(887) 评论(0) 推荐(0) 编辑

Hive查看表/分区更新时间

摘要：1.查看分区 hive> show partitions table_name; 2.查看分区更新时间获取hdfs路径 hive> desc formatted table_name; 通过dfs -ls < hdfs path>命令查看数据文件最新更新时间 hive> dfs -ls /user 阅读全文

posted @ 2020-08-05 16:51 独孤风阅读(4277) 评论(0) 推荐(0) 编辑

hadoop put 强制覆盖文件

摘要：若hdfs上已经存在文件，要强制覆盖，用 -f 命令如： hadoop fs -put -f file.name /home/test/ 阅读全文

posted @ 2020-08-05 16:39 独孤风阅读(2243) 评论(0) 推荐(0) 编辑

“/usr/bin/hdp-select”, line 226 print “ERROR: Invalid package – “ + name ^ SyntaxError: Missing parentheses in call to ‘print’. Did you mean print(“ERROR: Invalid package

摘要：spark-submit时报错 python升级3.7引起恢复2.7正常阅读全文

posted @ 2020-08-04 11:03 独孤风阅读(779) 评论(0) 推荐(0) 编辑

用Spark进行实时流计算

摘要：Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架，使用了微批的形式来进行流处理。提供了基于RDDs的Dstream API，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算 Apache 阅读全文

posted @ 2020-08-04 08:51 独孤风阅读(3241) 评论(0) 推荐(0) 编辑

什么是流处理

摘要：流处理正变得像数据处理一样流行。流处理已经超出了其原来的实时数据处理的范畴，它正在成为一种提供数据处理（包括批处理），实时应用乃至分布式事务的新方法的技术。 1、什么是流处理？流处理是不断合并新数据以计算结果的动作。在流处理中，输入数据不受限制，并且没有预定的开始或结束。它只是形成一系列事件，这些阅读全文

posted @ 2020-07-07 08:32 独孤风阅读(6182) 评论(0) 推荐(1) 编辑

Plink v0.1.0 发布——基于Flink的流处理平台

摘要：Plink是一个基于Flink的流处理平台，旨在基于 [Apache Flink]封装构建上层平台。提供常见的作业管理功能。如作业的创建，删除，编辑，更新，保存，启动，停止，重启，管理，多作业模板配置等。 Flink SQL 编辑提交功能。如 SQL 的在线开发，智能提示，格式化，语法校验，保存，阅读全文

posted @ 2020-07-03 08:01 独孤风阅读(1023) 评论(0) 推荐(0) 编辑

用户画像产品化——从零开始搭建实时用户画像(六)

摘要：在开发好用户标签以后，如何将标签应用到实际其实是一个很重要的问题。只有做好产品的设计才能让标签发挥真正的价值，本文将介绍用户画像的产品化过程。一、标签展示首先是标签展示功能，这个主要供业务人员和研发人员使用，是为了更直观的看见整个的用户标签体系。不同的标签体系会有不同的层级，那么这个页面的设计阅读全文

posted @ 2020-06-29 08:18 独孤风阅读(2550) 评论(1) 推荐(5) 编辑

用Python进行实时计算——PyFlink快速入门

摘要：Flink 1.9.0及更高版本支持Python，也就是PyFlink。在最新版本的Flink 1.10中，PyFlink支持Python用户定义的函数，使您能够在Table API和SQL中注册和使用这些函数。但是，听完所有这些后，您可能仍然想知道PyFlink的架构到底是什么？作为PyFlin 阅读全文

posted @ 2020-06-24 08:34 独孤风阅读(13820) 评论(1) 推荐(1) 编辑

Spark3.0分布，Structured Streaming UI登场

摘要：近日，在Spark开源十周年之际，Spark3.0发布了，这个版本大家也是期盼已久。登录Spark官网，最新的版本已经是3.0。而且不出意外，对于Structured Streaming进行了再一次的加强，这样Spark和Flink在实时计算领域的竞争，恐怕会愈演愈烈。 Spark 3.0 主要的新阅读全文

posted @ 2020-06-22 08:06 独孤风阅读(965) 评论(0) 推荐(0) 编辑

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论