IT猿看视界

2020年1月13日

摘要： Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更好地完成Spark代码设计，并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。阅读全文

posted @ 2020-01-13 18:07 IT猿看视界阅读(276) 评论(0) 推荐(0)

2020年1月10日

【数据结构与算法】—— 插入排序

摘要：插入排序（Insertion sort）是一种简单直观且稳定的排序算法。如果有一个已经有序的数据序列，要求在这个已经排好的数据序列中插入一个数，但要求插入后此数据序列仍然有序，这个时候就要用到一种新的排序方法——插入排序法,插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中，从而得到一个新的、个数加一的有序数据，算法适用于少量数据的排序，时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分：第一部分包含了这个数组的所有元素，但将最后一个元素除外（让数组多一个空间才有插入的位置），而第二部分就只包含这一个元素（即待插入元素）。在第一部分排序完成后，再将这个最后元素插入到已排好序的第一部分中。阅读全文

posted @ 2020-01-10 14:46 IT猿看视界阅读(241) 评论(0) 推荐(0)

大数据框架开发基础之Sqoop(1) 入门

摘要： Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。阅读全文

posted @ 2020-01-10 14:25 IT猿看视界阅读(566) 评论(0) 推荐(1)

2020年1月8日

【数据结构与算法】—— 二分查找

摘要：二分查找也称折半查找（Binary Search），它是一种效率较高的查找方法。但是，折半查找要求线性表必须采用顺序存储结构，而且表中元素按关键字有序排列。二分介绍前面介绍了，不多说查找思路首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否阅读全文

posted @ 2020-01-08 18:09 IT猿看视界阅读(137) 评论(0) 推荐(0)

【数据结构与算法】—— 插入排序

posted @ 2020-01-08 18:07 IT猿看视界阅读(137) 评论(0) 推荐(0)

【数据结构与算法】—— 选择排序

摘要：选择排序（Selection sort）是一种简单直观的排序算法。它的工作原理是：第一次从待排序的数据元素中选出最小（或最大）的一个元素，存放在序列的起始位置，然后再从剩余的未排序元素中寻找到最小（大）元素，然后放到已排序的序列的末尾。以此类推，直到全部待排序的数据元素的个数为零。选择排序是不稳定的排序方法。阅读全文

posted @ 2020-01-08 18:05 IT猿看视界阅读(123) 评论(0) 推荐(0)

【数据结构与算法】—— 冒泡排序

摘要：冒泡排序(Bubble Sort），是一种计算机科学领域的较简单的排序算法。它重复地走访过要排序的元素列，依次比较两个相邻的元素，如果顺序（如从大到小、首字母从从Z到A）错误就把他们交换过来。走访元素的工作是重复地进行直到没有相邻元素需要交换，也就是说该元素列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端（升序或降序排列），就如同碳酸饮料中二氧化碳的气泡最终会上浮到顶端一样，故名“冒泡排序”。(解释来自百度百科) 阅读全文

posted @ 2020-01-08 18:01 IT猿看视界阅读(140) 评论(0) 推荐(0)

【大数据面试宝典】第一篇 Hadoop 面试题

摘要： + Hadoop常见的端口 + Hadoop生态圈 + Hadoop配置文件以及简单的Hadoop集群搭建 + Hadoop参数调优 + 项目经验之基准测试 + Hadoop宕机 + Hadoop 高可用配置 Hadoop 常见的端口  dfs.namenode.http address:5007 阅读全文

posted @ 2020-01-08 17:59 IT猿看视界阅读(566) 评论(0) 推荐(0)

【大数据面试宝典】第二篇 HDFS 面试题

摘要： + HDFS 写文件 + 网络拓扑节点距离计算 + HDFS读流程 + NN和2NN工作机制 + Fsimage和Edits解析 + CheckPoint时间设置 + NameNode故障后的数据恢复 HDFS 数据流 HDFS 写文件 1）客户端通过Distributed FileSystem模阅读全文

posted @ 2020-01-08 17:57 IT猿看视界阅读(595) 评论(0) 推荐(0)

2020年1月7日

大数据框架开发基础之Zookeeper入门

摘要： Zookeeper是Hadoop分布式调度服务，用来构建分布式应用系统。构建一个分布式应用是一个很复杂的事情，主要的原因是我们需要合理有效的处理分布式集群中的部分失败的问题。例如，集群中的节点在相互通信时，A节点向B节点发送消息。A节点如果想知道消息是否发送成功，只能由B节点告诉A节点。那么如果B节阅读全文

posted @ 2020-01-07 15:31 IT猿看视界阅读(470) 评论(0) 推荐(0)

公告