摘要: 前情回顾 在上一篇中,我们执行了一个 update 语句,但是却被 block 住了,经过一番查询,发现是另一个人也在 update 同一个表,但是没有 commit 。 修改也很简单, commit 一下即可。 新的问题 我们有一个 Loader 模块,其作用是把数据从文件写入到数据库表中。 最终 阅读全文
posted @ 2020-12-07 15:27 MaxStack 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 问题 在开发时,遇到一个问题,我运行了一个简单的 update 语句如下: update table_a set column_b = 'something' where condition_c = 'blablabla'; 但是,执行了很久都没有完成。等了大概有 5 分钟,还在 run 。这个表不 阅读全文
posted @ 2020-11-20 17:56 MaxStack 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 发现问题 某云服务器上,接连收到多个警报,示例如下: 综合起来,问题主要集中在以下文件: /usr/bin/dbused (deleted) /tmp/x64b (deleted) /tmp/x64b /tmp/.dbusex/dbusex 我登陆到服务器控制台一看,CPU使用一直在接近100%的状 阅读全文
posted @ 2020-11-14 10:12 MaxStack 阅读(1390) 评论(0) 推荐(0) 编辑
摘要: 问题 在服务器上起了HDFS+Yarn,然后提交了一个作业: hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 1 2 但是运行的时候报错,Console的log如下: 2020 阅读全文
posted @ 2020-11-03 17:05 MaxStack 阅读(5130) 评论(0) 推荐(0) 编辑
摘要: 问题 在本地写了一个Java程序,操作云端的HDFS文件系统,执行ls没有问题。 在本地写了另外一个Java程序,连接云端的HDFS做MapReduce操作,报错如下。 片段1:在开始做map 0% reduce 0%操作时,报了一个Connection refused。 2020-10-31 09 阅读全文
posted @ 2020-10-31 11:23 MaxStack 阅读(1030) 评论(1) 推荐(1) 编辑
摘要: 问题 使用Hadoop时,每次起NameNode,DataNode,或者使用命令hadoop fs -ls的时候,都会出现如下提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… 阅读全文
posted @ 2020-10-30 11:24 MaxStack 阅读(8290) 评论(0) 推荐(0) 编辑
摘要: 问题 在阿里云上我部署了一个 Single Cluster 的 HDFS,使用hadoop fs -ls /查看没有问题。 然后,在本地我跑了一个Java程序,想要连接阿里云的 HDFS 并进行基本操作。但是运行的时候报错了,关键信息如下: java.net.ConnectException: Co 阅读全文
posted @ 2020-10-28 14:10 MaxStack 阅读(1447) 评论(0) 推荐(0) 编辑
摘要: 问题 我司的项目都是模块化的,一个大项目下面有很多小项目。某一个开发阶段,开发人员可能要同时修改5-6个项目。 所以,每天早上到办公室的第一件事,我会打开SourceTree(一个管理Git代码的软件,提供图形化界面),把每个正在开发的项目更新一下(点一下Pull那个按钮)。 如果有还没来得及 co 阅读全文
posted @ 2020-10-21 15:42 MaxStack 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 问题 在工作中,部署工具一般只负责把tar/jar包上传到公司的一个中心服务器C上。如果我们在开发的服务器A上,要部署最新代码运行,还需要费一番周折。 观察到的开发人员常用的一个方法是:从服务器C先将包先下载到本机L,然后再从本机L上传到服务器A。 当有多个项目(10+)时,这是一件非常繁琐的事。需 阅读全文
posted @ 2020-10-09 17:29 MaxStack 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 当我们自己跑一个小程序时,可以用类似java app.jar的命令直接跑。而在实际的生产/开发环境,除了classpath外,还会加上一大堆JVM运行参数。 下面,就对一个实例进行分析: -Xms140G // 最小堆 -Xmx140G // 最大堆 -Xss10M // 栈空间 -XX:Metas 阅读全文
posted @ 2020-10-07 17:39 MaxStack 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 在工作中,有些活是富有创造力的,而有些活是相对繁重而重复的。如果转换一下思维,用一个另一个思路去做冗余的工作,可能就会轻松许多。 下面就是一个例子。 问题 我们系统的工作流如下:上游A系统把文件上传到B平台,然后C系统(我们)从B平台获取文件,并处理,再给下游系统使用。 A -> B -> C -> 阅读全文
posted @ 2020-09-09 17:19 MaxStack 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 需求 本地有一台机器使用Linux系统,需要SSH(免密码登录)到云端的两台Server上。 按照网上的教程试了一下,发现配置第一台可以,配置第二台的时候就有些问题了。于是花了些时间研究了下,下面是详细的过程。 至于SSH的原理,可以参考搜索这里:[Public-key cryptography] 阅读全文
posted @ 2020-09-03 18:57 MaxStack 阅读(1522) 评论(0) 推荐(0) 编辑
摘要: 定义 Celery is a simple, flexible, and reliable distributed system to process vast amounts of messages, while providing operations with the tools requir 阅读全文
posted @ 2020-08-31 19:31 MaxStack 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 认识Spark SQL 认识Spark Streaming Spark SQL Competitor Hive Apache Drill Amazon EMR Data Sources JSON CSV Parquet Hive Adventage Optimizations Predicate p 阅读全文
posted @ 2020-08-19 10:15 MaxStack 阅读(87) 评论(0) 推荐(0) 编辑
摘要: Understanding Cluster Deploying to a Cluster Spark Submit Job Understanding Cluster 在运行Spark时,有两种模式,一种是Local,一种是Cluster。顾名思义,前者是单点的,后者是集群的。对于不同的模式,在写代 阅读全文
posted @ 2020-08-18 13:43 MaxStack 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 深入解析:Shared Variables 深入解析:RDD Persistence 深入解析:RDD Key Value Pairs API 额外知识点:Implicit Conversion Shared Variables 一般来说,Spark中的变量都是local变量,每个executor都 阅读全文
posted @ 2020-08-17 10:15 MaxStack 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 进一步介绍了Transformation操作 进一步介绍了Action操作 知识点解析:Function 知识点解析:Suffle Transformation map map(func) converts each element of the source RDD into a single e 阅读全文
posted @ 2020-08-16 10:15 MaxStack 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 介绍了Spark中最重要的概念RDD 介绍了RDD的基本操作(Transformation & Action) 介绍了RDD的血缘关系(Lineage) 介绍了RDD的依赖类型(Narrow & Shuffle) 介绍了RDD的阶段(Stage) 介绍了RDD的缓存(Cache) 实战:Loadin 阅读全文
posted @ 2020-08-15 10:15 MaxStack 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 介绍了Spark的特点,历史 介绍了Spark的安装 介绍了Spark的局限性 介绍了Spark的基本工作原理 演示了一个Hello World例子 演示了一个Initiation例子 Source Spark是大数据学习的一个常用框架,很重要。下面就对以前曾经上过的课程做一个总结回顾。 (注:本文 阅读全文
posted @ 2020-08-14 10:16 MaxStack 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 在实际工作中,我们可能会遇到几十个常用table,每个表有几十个column,很难一下子把它们都记住。 每次使用desc TableA手动查询,效率比较低。特别是碰到DB slowness,就只能干等着,很急。 所以需要做一个可以便捷更新的数据库文档。 最终,我选用了开源的screw来实现。Gith 阅读全文
posted @ 2020-08-13 10:43 MaxStack 阅读(1338) 评论(0) 推荐(0) 编辑