摘要:
## 问题 我们的系统A,在运行过程中会查询(调用)一个其它系统B的模块,获取一些股票/债券等的属性。 股票/债券的信息每天更新,但是模块B并不提供历史记录,查询到的总是最新值。 原本每天运行下来也没什么问题,但是,最近业务上有一个新的需求,要求我们能够重跑某一天的数据,且最终结果不变。 问题来了, 阅读全文
摘要:
前情回顾 在上一篇中,我们执行了一个 update 语句,但是却被 block 住了,经过一番查询,发现是另一个人也在 update 同一个表,但是没有 commit 。 修改也很简单, commit 一下即可。 新的问题 我们有一个 Loader 模块,其作用是把数据从文件写入到数据库表中。 最终 阅读全文
摘要:
问题 在开发时,遇到一个问题,我运行了一个简单的 update 语句如下: update table_a set column_b = 'something' where condition_c = 'blablabla'; 但是,执行了很久都没有完成。等了大概有 5 分钟,还在 run 。这个表不 阅读全文
摘要:
发现问题 某云服务器上,接连收到多个警报,示例如下: 综合起来,问题主要集中在以下文件: /usr/bin/dbused (deleted) /tmp/x64b (deleted) /tmp/x64b /tmp/.dbusex/dbusex 我登陆到服务器控制台一看,CPU使用一直在接近100%的状 阅读全文
摘要:
问题 在服务器上起了HDFS+Yarn,然后提交了一个作业: hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 1 2 但是运行的时候报错,Console的log如下: 2020 阅读全文
摘要:
问题 在本地写了一个Java程序,操作云端的HDFS文件系统,执行ls没有问题。 在本地写了另外一个Java程序,连接云端的HDFS做MapReduce操作,报错如下。 片段1:在开始做map 0% reduce 0%操作时,报了一个Connection refused。 2020-10-31 09 阅读全文
摘要:
问题 使用Hadoop时,每次起NameNode,DataNode,或者使用命令hadoop fs -ls的时候,都会出现如下提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… 阅读全文
摘要:
问题 在阿里云上我部署了一个 Single Cluster 的 HDFS,使用hadoop fs -ls /查看没有问题。 然后,在本地我跑了一个Java程序,想要连接阿里云的 HDFS 并进行基本操作。但是运行的时候报错了,关键信息如下: java.net.ConnectException: Co 阅读全文
摘要:
问题 我司的项目都是模块化的,一个大项目下面有很多小项目。某一个开发阶段,开发人员可能要同时修改5-6个项目。 所以,每天早上到办公室的第一件事,我会打开SourceTree(一个管理Git代码的软件,提供图形化界面),把每个正在开发的项目更新一下(点一下Pull那个按钮)。 如果有还没来得及 co 阅读全文
摘要:
问题 在工作中,部署工具一般只负责把tar/jar包上传到公司的一个中心服务器C上。如果我们在开发的服务器A上,要部署最新代码运行,还需要费一番周折。 观察到的开发人员常用的一个方法是:从服务器C先将包先下载到本机L,然后再从本机L上传到服务器A。 当有多个项目(10+)时,这是一件非常繁琐的事。需 阅读全文
摘要:
当我们自己跑一个小程序时,可以用类似java app.jar的命令直接跑。而在实际的生产/开发环境,除了classpath外,还会加上一大堆JVM运行参数。 下面,就对一个实例进行分析: -Xms140G // 最小堆 -Xmx140G // 最大堆 -Xss10M // 栈空间 -XX:Metas 阅读全文
摘要:
在工作中,有些活是富有创造力的,而有些活是相对繁重而重复的。如果转换一下思维,用一个另一个思路去做冗余的工作,可能就会轻松许多。 下面就是一个例子。 问题 我们系统的工作流如下:上游A系统把文件上传到B平台,然后C系统(我们)从B平台获取文件,并处理,再给下游系统使用。 A -> B -> C -> 阅读全文
摘要:
需求 本地有一台机器使用Linux系统,需要SSH(免密码登录)到云端的两台Server上。 按照网上的教程试了一下,发现配置第一台可以,配置第二台的时候就有些问题了。于是花了些时间研究了下,下面是详细的过程。 至于SSH的原理,可以参考搜索这里:[Public-key cryptography] 阅读全文
摘要:
定义 Celery is a simple, flexible, and reliable distributed system to process vast amounts of messages, while providing operations with the tools requir 阅读全文
摘要:
认识Spark SQL 认识Spark Streaming Spark SQL Competitor Hive Apache Drill Amazon EMR Data Sources JSON CSV Parquet Hive Adventage Optimizations Predicate p 阅读全文
摘要:
Understanding Cluster Deploying to a Cluster Spark Submit Job Understanding Cluster 在运行Spark时,有两种模式,一种是Local,一种是Cluster。顾名思义,前者是单点的,后者是集群的。对于不同的模式,在写代 阅读全文
摘要:
深入解析:Shared Variables 深入解析:RDD Persistence 深入解析:RDD Key Value Pairs API 额外知识点:Implicit Conversion Shared Variables 一般来说,Spark中的变量都是local变量,每个executor都 阅读全文
摘要:
进一步介绍了Transformation操作 进一步介绍了Action操作 知识点解析:Function 知识点解析:Suffle Transformation map map(func) converts each element of the source RDD into a single e 阅读全文
摘要:
介绍了Spark中最重要的概念RDD 介绍了RDD的基本操作(Transformation & Action) 介绍了RDD的血缘关系(Lineage) 介绍了RDD的依赖类型(Narrow & Shuffle) 介绍了RDD的阶段(Stage) 介绍了RDD的缓存(Cache) 实战:Loadin 阅读全文
摘要:
介绍了Spark的特点,历史 介绍了Spark的安装 介绍了Spark的局限性 介绍了Spark的基本工作原理 演示了一个Hello World例子 演示了一个Initiation例子 Source Spark是大数据学习的一个常用框架,很重要。下面就对以前曾经上过的课程做一个总结回顾。 (注:本文 阅读全文