08 2020 档案
发表于 2020-08-31 17:12阅读:2574评论:0推荐:0
摘要:Flink 自定义Sink,把socket数据流数据转换成对象写入到mysql存储。
阅读全文 »
发表于 2020-08-31 11:38阅读:1002评论:0推荐:0
摘要:Flink常用算子代码实现 (Scala版本和Java版本)
阅读全文 »
发表于 2020-08-30 23:53阅读:341评论:0推荐:0
摘要:1、冒泡排序 2、 插入排序 3、堆排序 4、快速排序 5、希尔排序 6、归并排序 7、计数排序 8、桶排序 9、基数排序 10、选择排序
阅读全文 »
发表于 2020-08-29 15:29阅读:983评论:0推荐:1
摘要:面试总结: ##1、HDFS小文件 小文件的产生原因 1) 数据本身的特点:比如我们在 HDFS 上存储大量的图片、短视频、短音频等文件,这些文件本身较小,达不到一个block的大小,而且数量众多。 2) MapReduce产生:例如使用查询一张含有海量数据的表,然后存储在另外一张表中,而这个查询只
阅读全文 »
发表于 2020-08-28 12:54阅读:637评论:0推荐:1
摘要:某公司面试题: 1、阐述数据库的三大范式? 2、Linux 自带的常用命令举例至少20个? 3、Spark 有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 4、Hive 和 HBase 的区别? 5、你了解设计模式吗?写出你知道的设计模式。 6、常见的GC算法有哪些? 7、kafka 的数据存
阅读全文 »
发表于 2020-08-27 22:15阅读:2623评论:0推荐:0
摘要:前言 ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 ZooK
阅读全文 »
发表于 2020-08-26 23:47阅读:198评论:0推荐:0
摘要:低级到高级:ods - dw - ads 有哪些应用 数据整合 数据仓库 BI 报表 实时大屏展示 数据标签 用户画像 - 脸谱 用户客群分析 个性化推荐 反洗钱 金融风控 ...
阅读全文 »
发表于 2020-08-26 23:11阅读:334评论:0推荐:1
摘要:技术选型:一个优秀的大数据生态组件需要满足这些条件。
阅读全文 »
发表于 2020-08-25 17:30阅读:580评论:0推荐:0
摘要:代码如下: scala> sc.parallelize(Array("a_b","c_d","e_f")).foreach(println) a_b c_d e_f scala> sc.parallelize(Array("a_b","c_d","e_f")).map(string=>{string
阅读全文 »
发表于 2020-08-25 10:48阅读:5363评论:0推荐:1
摘要:Spark-shell 执行sql查询报错: 20/08/24 15:33:59 WARN metastore.ObjectStore: Failed to get database default, returning NoSuchObjectException 20/08/24 15:34:03
阅读全文 »
发表于 2020-08-25 01:43阅读:154评论:0推荐:0
摘要:原作者:睶先森 原文链接:https://blog.csdn.net/Butterfly_resting/article/details/89668661 面试题: 1、Redis 持久化机制 2、缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题 3、热点数据和冷数据是什么 4、Memcach
阅读全文 »
发表于 2020-08-24 17:57阅读:450评论:0推荐:0
摘要:Block是文件块,HDFS中是以Block为单位进行文件的管理的,一个文件可能有多个块,每个块默认是3个副本,这些块分别存储在不同机器上。块与文件之前的映射关系会定时上报Namenode。HDFS中一个块的默认大小是64M,其大小由参数dfs.block.size控制。这里面先引申几个问题出来:
阅读全文 »
发表于 2020-08-23 23:49阅读:361评论:0推荐:0
摘要:HDFS读过程 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStre
阅读全文 »
发表于 2020-08-23 21:33阅读:972评论:0推荐:0
摘要:在分析DataNode时, 因为DataNode上保存的是数据块, 因此DataNode主要是对数据块进行操作. DataNode的主要工作流程 客户端和DataNode的通信: 客户端向DataNode的数据块读写, 采用TCP/IP流接口(DataXceiver)进行数据传输 客户端在检测到Da
阅读全文 »
发表于 2020-08-23 21:20阅读:451评论:0推荐:0
摘要:在数据库的锁机制中介绍过,数据库管理系统(DBMS)中的并发控制的任务是确保在多个事务同时存取数据库中同一数据时不破坏事务的隔离性和统一性以及数据库的统一性。 乐观并发控制(乐观锁)和悲观并发控制(悲观锁)是并发控制主要采用的技术手段。 无论是悲观锁还是乐观锁,都是人们定义出来的概念,可以认为是一种
阅读全文 »
发表于 2020-08-23 16:53阅读:589评论:0推荐:0
摘要:脏读:事务A提交后又发生了回滚,事务B读取了事务A提交后的数据,但是由于发生回滚,读取的数据是无效的。
幻读:事务A对全表数据进行了更改操作,事务B对表添加了一行数据,导致事务A的全表操作没有包含B新提交的一行数据。
不可重复读:事务A读了一条数据,要处理某个逻辑,此时事务B把数据该了,事务A再次读取时,发现数据有变化,导致前后两次读取到的数据不一样。
阅读全文 »
发表于 2020-08-23 16:44阅读:216评论:0推荐:0
摘要:使用 concat_ws 实现行转列,使用 lateral view explode 实现列转行。
阅读全文 »
发表于 2020-08-22 01:55阅读:241评论:0推荐:0
摘要:yield 在很多高级语言都有,比如:python、scala、JavaScript、Ruby等。 我们实际工作时,很少会用到yield,但是也架不住求职面试的时候,面试官可能会问呀。 yield 在英语里面的解释是: 出产(作物); 产生(收益、效益等); 提供; 屈服; 让步; 放弃; 缴出;
阅读全文 »
发表于 2020-08-22 01:41阅读:99评论:0推荐:0
摘要:线程的5个状态: 1、创建状态 当调用 start() 方法,线程立即进入就绪状态,但不意味着立即调度执行。 2、就绪状态 3、 运行状态 进入运行状态,线程才真正执行线程体的代码块 4、阻塞状态 当调用 sleep, wait 或同步锁定时,线程进入阻塞状态,就是代码不往下执行,阻塞事件解除后,重
阅读全文 »
发表于 2020-08-22 01:25阅读:204评论:0推荐:0
摘要:Java 的 Lambda 表达式推演过程: 第一步:正常的类实现(外部实现),new一个对象,然后重写方法实现 public class TestLambda3 { public static void main(String[] args) { Human human = new Man();
阅读全文 »
发表于 2020-08-21 20:17阅读:5254评论:0推荐:0
摘要:IDEA 的代码补全/自动联想功能,可以仅仅输入几个字母,自动补全一整段代码,非常舒服。 代码自动联想功能在 设置 → Editor → Live Templates 查看,很多都非常实用,也可以自己编辑。 例如:maven 下配置repository,只需要敲 repo ,就可以自动补全下面这一整
阅读全文 »
发表于 2020-08-21 15:53阅读:2197评论:0推荐:0
摘要:在IDEA运行一个程序时报错: Class JavaLaunchHelper is implemented in both 这个错误是Mac下Java 的一个bug,意思是这个JavaLaunchHelper类被实现了两次。 在 别人的博客找到了解决方案,但是bug 是自己的,记录一下。 最初方案来
阅读全文 »
发表于 2020-08-21 14:24阅读:903评论:0推荐:0
摘要:函数柯里化(currying)又称部分求值,好处是:1、参数复用,2、提前返回,3、 延迟计算/运行。
阅读全文 »
发表于 2020-08-21 03:07阅读:229评论:0推荐:0
摘要:Hadoop 2.6.1 集群配置教程,主要用于自己备忘
阅读全文 »
发表于 2020-08-20 23:26阅读:109评论:0推荐:0
摘要:awk 是shell 里的常用命令,非常强大!
阅读全文 »
发表于 2020-08-20 23:22阅读:104评论:0推荐:0
摘要:sed 在shell 编程里也很常用,功能强大! 同grep一样,sed提供两种方式: 方式一:stdout | sed [option] “pattern command” 从文本中直接使用pattern匹配搜索。 方式二:sed [option] “pattern command” file 从
阅读全文 »
发表于 2020-08-20 23:21阅读:107评论:0推荐:0
摘要:grep 的全称是 Globally search a Regular Expression and Print,是一种强大的文本搜索工具,它能使用特定模式匹配(包括正则表达式)搜索文本,并默认输出匹配行 我们程序员最常用的是查找指定的线程: 去查找指定的进程:ps -ef | grep *** g
阅读全文 »
发表于 2020-08-19 15:44阅读:695评论:0推荐:0
摘要:为什么用Bulk load? 批量加载数据到HBase集群,有很多种方式,比如利用 HBase API 进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等等,但是这些方法都有一个问题:导入数据的过程如果数据量过大,可能耗时会比较严重或者占用HBase集群资
阅读全文 »
发表于 2020-08-18 23:30阅读:457评论:0推荐:0
摘要:原文转自:美团技术团队 作者: 李雪蕤 Spark性能优化指南——基础篇: https://tech.meituan.com/2016/04/29/spark-tuning-basic.html Spark性能优化指南——高级篇: https://tech.meituan.com/2016/05/1
阅读全文 »
发表于 2020-08-18 23:17阅读:440评论:0推荐:0
摘要:原文转自:美团技术团队 作者: 李雪蕤 Spark性能优化指南——基础篇: https://tech.meituan.com/2016/04/29/spark-tuning-basic.html Spark性能优化指南——高级篇: https://tech.meituan.com/2016/05/1
阅读全文 »
发表于 2020-08-18 16:22阅读:1580评论:0推荐:0
摘要:为节省篇幅,将SecondaryNameNode简称SNN,NameNode简称NN。 #NN与fsimage、edits文件 NN负责管理HDFS中所有的元数据,包括但不限于文件/目录结构、文件权限、块ID/大小/数量、副本策略等等。客户端执行读写操作前,先从NN获得元数据。当NN在运行时,元数据
阅读全文 »
发表于 2020-08-18 12:42阅读:3933评论:1推荐:1
摘要:自己搭建的集群,启动hadoop 集群是,发现slave节点的datanode没有启动,查了资料发现是因为我在启动集群前,执行了这个命令: hadoop namenode -format 这个指令会重新格式化namenode的信息,这样可能会导致master节点的VERSION信息跟datanode
阅读全文 »
发表于 2020-08-17 23:07阅读:6713评论:0推荐:2
摘要:Hadoop 3.x 与Hadoop 2.x 的区别和优化点 #通用性 1.精简Hadoop内核,包括剔除过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org.
阅读全文 »
发表于 2020-08-17 22:38阅读:6873评论:0推荐:0
摘要:什么是分布式系统? 拿一个最简单的例子,就比如说我们的图书管理系统。之前的系统包含了所有的功能,比如用户注册登录、管理员功能、图书借阅管理等。这叫做集中式系统。也就是一个人干了好几件事。 后来随着功能的增多,用户量也越来越大。集中式系统维护太麻烦,拓展性也不好。于是就考虑着把这些功能分开。通俗的理解
阅读全文 »
发表于 2020-08-17 21:56阅读:787评论:0推荐:0
摘要:#1.什么是脑裂? 脑裂是Hadoop2.X版本后出现的全新问题,从字面意思我们可以理解为“大脑分裂”;我们想一下,当一个正常人,突然出现有了两个大脑,而且这两个大脑都有自己的意识,对于这个人来说肯定是灾难性问题。同理,在Hadoop中,为了防止单点失效问题而出现了两个namenode(HA机制),
阅读全文 »
发表于 2020-08-17 16:42阅读:2372评论:0推荐:0
摘要:MapReduce过程中的shuffle,进行了3次排序,一次快排,两次归并排序。
阅读全文 »
发表于 2020-08-17 16:19阅读:4141评论:0推荐:0
摘要:hive很简单,有sql基础很容易上手
阅读全文 »
发表于 2020-08-17 02:36阅读:9279评论:0推荐:1
摘要:##面试题: hive 内部表和外部表的区别? hive 是如何实现分区的? Hive 有哪些方式保存元数据,各有哪些优缺点? hive中order by、distribute by、sort by和cluster by的区别和联系 hive 中的压缩格式 RCFile、 TextFile、 Seq
阅读全文 »
发表于 2020-08-17 00:04阅读:2959评论:0推荐:4
摘要:docker compose 官放推荐的下载方式是这样的: sudo curl -L "https://github.com/docker/compose/releases/download/1.26.2/docker-compose-(uname -m)" -o /usr
阅读全文 »
发表于 2020-08-16 16:34阅读:732评论:0推荐:1
摘要:不使用Docker0,如何实现Docker 自定义网络? 为什么要自定义网路? Docker 不同容器之间通过Docker0相互通信,Docker0 相当于一个路由,不容容器之间的通信请求,通过Docker0 转发,从而实现通信。 这样就会有一个问题,我有一个微服务A,一个微服务B,都需要联网,但是
阅读全文 »
发表于 2020-08-15 18:26阅读:105评论:0推荐:1
摘要:进入当前正在运行的容器 # 我们通常容器都是使用后台方式运行的,需要进入容器,修改一些配置 # 命令: docker exec -it 容器 id bashshell #测试 我们通常容器都是使用后台方式运行的,需要进入容器,修改一些配置 命令: docker exed-it 容器 id bashs
阅读全文 »
发表于 2020-08-15 17:01阅读:483评论:0推荐:0
摘要:联合文件系统
阅读全文 »
发表于 2020-08-15 16:00阅读:177评论:0推荐:0
摘要:Docker 学习笔记一
阅读全文 »
发表于 2020-08-15 15:34阅读:500评论:3推荐:5
摘要:博客园自定义主题,很惊艳,隔壁邻居家小孩都惊呆了...
阅读全文 »
发表于 2020-08-13 01:37阅读:70评论:0推荐:0
摘要:很早就知道博客园,注册了却没开通写博客,下午查资料看到一个博主,博客园主题很好看,我以为是自带的样式,特别赞! 这位博主是:https://www.cnblogs.com/haixiang/ 欢迎去围观~ 于是乎注册并提交审核,很快审核通过了。 博客起名很麻烦,博客园建立十几年了,很多人现在已经不写
阅读全文 »