08 2020 档案

摘要:info查询所有库的key数量 dbsize查询当前库的key数量 keys * 查询当前库的所有key,数量少的时候可以用,当key很多的时候很慢,be careful! 阅读全文
posted @ 2020-08-31 15:00 独孤风 阅读(13356) 评论(0) 推荐(0) 编辑
摘要:Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable。 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Goo 阅读全文
posted @ 2020-08-21 08:53 独孤风 阅读(572) 评论(0) 推荐(0) 编辑
摘要:SAVE 和 BGSAVE 两个命令都会调用 rdbSave 函数,但它们调用的方式各有不同: SAVE 直接调用 rdbSave ,阻塞 Redis 主进程,直到保存完成为止。在主进程阻塞期间,服务器不能处理客户端的任何请求。 BGSAVE 则 fork 出一个子进程,子进程负责调用 rdbSav 阅读全文
posted @ 2020-08-17 10:16 独孤风 阅读(490) 评论(0) 推荐(0) 编辑
摘要:阿里巴巴一直在面向未来探索B类新电商模式,并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心,缺少买家维度的数字化经营体系是不完整的。平台场景目标群体及场景间买家差异性尚不明确,客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。同时,客 阅读全文
posted @ 2020-08-14 09:00 独孤风 阅读(1512) 评论(0) 推荐(0) 编辑
摘要:近日Kafka2.6版本发布,距离2.5.0发布只过去了不到四个月的时间。 Kafka 2.6.0包含许多重要的新功能。以下是一些重要更改的摘要: 默认情况下,已为Java 11或更高版本启用TLSv1.3 性能显着提高,尤其是当代理具有大量分区时 扩展Kafka Streams的应用程序更便捷 K 阅读全文
posted @ 2020-08-11 08:48 独孤风 阅读(1635) 评论(0) 推荐(0) 编辑
摘要:执行python报错 /usr/bin/python2.7 /root/demo.py File "/root/demo.py", line 2 SyntaxError: Non-ASCII character '\xe5' in file /root/demo.py on line 3, but 阅读全文
posted @ 2020-08-07 16:12 独孤风 阅读(200) 评论(0) 推荐(0) 编辑
摘要:Hive删除操作主要分为几大类:删除数据(保留表)、删除库表、删除分区。 一、仅删除表中数据,保留表结构 hive> truncate table 表名; truncate操作用于删除指定表中的所有行,相当于delete from table where 1=1.表达的是一个意思。 注意:trunc 阅读全文
posted @ 2020-08-07 14:15 独孤风 阅读(29795) 评论(0) 推荐(1) 编辑
摘要:虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口,事件时间虽然支撑较少,但还是可以满足部分的实时计算 阅读全文
posted @ 2020-08-06 08:35 独孤风 阅读(885) 评论(0) 推荐(0) 编辑
摘要:1.查看分区 hive> show partitions table_name; 2.查看分区更新时间 获取hdfs路径 hive> desc formatted table_name; 通过dfs -ls < hdfs path>命令查看数据文件最新更新时间 hive> dfs -ls /user 阅读全文
posted @ 2020-08-05 16:51 独孤风 阅读(4276) 评论(0) 推荐(0) 编辑
摘要:要求Spark版本2.3以上,亲测2.2无效 配置 config("spark.sql.sources.partitionOverwriteMode","dynamic") 注意 1、saveAsTable方法无效,会全表覆盖写,需要用insertInto,详情见代码 2、insertInto需要主 阅读全文
posted @ 2020-08-05 16:47 独孤风 阅读(3072) 评论(0) 推荐(0) 编辑
摘要:1,-mkdir 创建目录 Usage:hdfs dfs -mkdir [-p] < paths> 选项:-p 很像Unix mkdir -p,沿路径创建父目录。 2,-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 Usage:hdfs dfs -ls [-R] < args> 选 阅读全文
posted @ 2020-08-05 16:42 独孤风 阅读(4773) 评论(0) 推荐(0) 编辑
摘要:若hdfs上已经存在文件,要强制覆盖,用 -f 命令 如: hadoop fs -put -f file.name /home/test/ 阅读全文
posted @ 2020-08-05 16:39 独孤风 阅读(2242) 评论(0) 推荐(0) 编辑
摘要:Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件(例如CSV或TSV文件)相比,Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。 Parquet使用记录粉碎和组装算法,该算法优于嵌套名称空间的简单拼合。Parquet经过优化,可以批量处理复杂 阅读全文
posted @ 2020-08-04 15:47 独孤风 阅读(858) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算 Apache 阅读全文
posted @ 2020-08-04 08:51 独孤风 阅读(3240) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示