随笔档案「2020年8月」 - 独孤风

摘要：info查询所有库的key数量 dbsize查询当前库的key数量 keys * 查询当前库的所有key，数量少的时候可以用，当key很多的时候很慢，be careful! 阅读全文

posted @ 2020-08-31 15:00 独孤风阅读(13415) 评论(0) 推荐(0)

摘要：Google File System 但凡是要开始讲大数据的，都绕不开最初的Google三驾马车：Google File System（GFS）， MapReduce，BigTable。为这一切的基础的Google File System，不但没有任何倒台的迹象，还在不断的演化，事实上支撑着Goo 阅读全文

posted @ 2020-08-21 08:53 独孤风阅读(657) 评论(0) 推荐(0)

redis中save和bgsave区别

摘要：SAVE 和 BGSAVE 两个命令都会调用 rdbSave 函数，但它们调用的方式各有不同： SAVE 直接调用 rdbSave ，阻塞 Redis 主进程，直到保存完成为止。在主进程阻塞期间，服务器不能处理客户端的任何请求。 BGSAVE 则 fork 出一个子进程，子进程负责调用 rdbSav 阅读全文

posted @ 2020-08-17 10:16 独孤风阅读(522) 评论(0) 推荐(0)

揭秘阿里巴巴的客群画像

摘要：阿里巴巴一直在面向未来探索B类新电商模式，并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心，缺少买家维度的数字化经营体系是不完整的。平台场景目标群体及场景间买家差异性尚不明确，客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。同时，客阅读全文

posted @ 2020-08-14 09:00 独孤风阅读(1736) 评论(0) 推荐(0)

Kafka2.6.0发布——性能大幅提升

摘要：近日Kafka2.6版本发布，距离2.5.0发布只过去了不到四个月的时间。 Kafka 2.6.0包含许多重要的新功能。以下是一些重要更改的摘要：默认情况下，已为Java 11或更高版本启用TLSv1.3 性能显着提高，尤其是当代理具有大量分区时扩展Kafka Streams的应用程序更便捷 K 阅读全文

posted @ 2020-08-11 08:48 独孤风阅读(1671) 评论(0) 推荐(0)

SyntaxError: Non-ASCII character #-*- coding:utf-8 -*-

摘要：执行python报错 /usr/bin/python2.7 /root/demo.py File "/root/demo.py", line 2 SyntaxError: Non-ASCII character '\xe5' in file /root/demo.py on line 3, but 阅读全文

posted @ 2020-08-07 16:12 独孤风阅读(214) 评论(0) 推荐(0)

Hive操作——删除表(drop、truncate)

摘要：Hive删除操作主要分为几大类：删除数据（保留表）、删除库表、删除分区。一、仅删除表中数据，保留表结构 hive> truncate table 表名; truncate操作用于删除指定表中的所有行，相当于delete from table where 1=1.表达的是一个意思。注意：trunc 阅读全文

posted @ 2020-08-07 14:15 独孤风阅读(30333) 评论(0) 推荐(1)

Spark Streaming——Spark第一代实时计算引擎

摘要：虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足部分的实时计算阅读全文

posted @ 2020-08-06 08:35 独孤风阅读(965) 评论(0) 推荐(0)

Hive查看表/分区更新时间

摘要：1.查看分区 hive> show partitions table_name; 2.查看分区更新时间获取hdfs路径 hive> desc formatted table_name; 通过dfs -ls < hdfs path>命令查看数据文件最新更新时间 hive> dfs -ls /user 阅读全文

posted @ 2020-08-05 16:51 独孤风阅读(4367) 评论(0) 推荐(0)

Spark 覆盖写Hive分区表,只覆盖部分对应分区

摘要：要求Spark版本2.3以上，亲测2.2无效配置 config("spark.sql.sources.partitionOverwriteMode","dynamic") 注意 1、saveAsTable方法无效，会全表覆盖写，需要用insertInto，详情见代码 2、insertInto需要主阅读全文

posted @ 2020-08-05 16:47 独孤风阅读(3313) 评论(0) 推荐(0)

Hadoop hdfs dfs常用命令的使用

摘要：1，-mkdir 创建目录 Usage：hdfs dfs -mkdir [-p] < paths> 选项：-p 很像Unix mkdir -p，沿路径创建父目录。 2，-ls 查看目录下内容，包括文件名，权限，所有者，大小和修改时间 Usage：hdfs dfs -ls [-R] < args> 选阅读全文

posted @ 2020-08-05 16:42 独孤风阅读(5069) 评论(0) 推荐(0)

hadoop put 强制覆盖文件

摘要：若hdfs上已经存在文件，要强制覆盖，用 -f 命令如： hadoop fs -put -f file.name /home/test/ 阅读全文

posted @ 2020-08-05 16:39 独孤风阅读(2340) 评论(0) 推荐(0)

Parquet

摘要：Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件（例如CSV或TSV文件）相比，Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。 Parquet使用记录粉碎和组装算法，该算法优于嵌套名称空间的简单拼合。Parquet经过优化，可以批量处理复杂阅读全文

posted @ 2020-08-04 15:47 独孤风阅读(916) 评论(0) 推荐(0)

“/usr/bin/hdp-select”, line 226 print “ERROR: Invalid package – “ + name ^ SyntaxError: Missing parentheses in call to ‘print’. Did you mean print(“ERROR: Invalid package

摘要：spark-submit时报错 python升级3.7引起恢复2.7正常阅读全文

posted @ 2020-08-04 11:03 独孤风阅读(802) 评论(0) 推荐(0)

用Spark进行实时流计算

摘要：Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架，使用了微批的形式来进行流处理。提供了基于RDDs的Dstream API，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算 Apache 阅读全文

posted @ 2020-08-04 08:51 独孤风阅读(3330) 评论(0) 推荐(0)

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

08 2020 档案

公告

大数据流动

公众号 大数据流动。 追随大数据的流动，专注于大数据相关技术。 相关学习交流群已经成立，欢迎加入~

08 2020 档案

公告

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~