work hard work smart

队列(自定义列表实现自定义队列)

摘要： 1、改进的链表（增加tail）增加tail，指向链表尾部节点。这样在head和tail添加节点都很容易。从tail端删除节点并不容易，因为无法找到tail之前的那个节点。在head端删除节点容易。根据以上特性， head端作为队首， tail端最为队尾。从head端删除元素，从tail端插入阅读全文

posted @ 2021-02-09 10:57 work hard work smart 阅读(185) 评论(0) 推荐(0)

栈Stack(使用自定义链表实现自定义栈）

摘要：从上一篇博客链表( 自定义链表)知道，链表如果增删只对链表头操作O(1), 查找链表头元素O(1) ，这样的操作符合栈这个数据结构。下面我们使用自定义链表实现自定义栈 1、前面定义的栈接口 public interface IStack<E> { int getSize(); boolean is 阅读全文

posted @ 2021-02-08 23:33 work hard work smart 阅读(159) 评论(0) 推荐(0)

链表( 自定义链表)

摘要： 1、什么是链表？数据存储在“节点”(Node)中 Class Node{ E e; Node next; } 有点：真正的动态，不需要处理固定容量的问题。缺点：和数组相比，丧失了随机访问的能力。 2、数组和链表的对比数组最好用于索引有语义的情况，如scores[101], 学号为101的学阅读全文

posted @ 2021-02-08 22:59 work hard work smart 阅读(305) 评论(0) 推荐(0)

队列(动态数组实现自定义队列)

摘要： 1、什么是队列队列也是一种线性结构相比数组，队列对应的操作是数组的子集只能从一端(队尾)添加元素，只能从另一端(队首)取出元素。队列是一种先进先出的数据结构( 先到先得) First In First Out（FIFO） 2、自定义队列 1) 定义接口 public interface IQ 阅读全文

posted @ 2021-02-07 22:18 work hard work smart 阅读(191) 评论(0) 推荐(0)

栈Stack(动态数组实现自定义栈)

摘要： 1、什么是栈栈也是一种线性结构，相比数组，栈对应的操作是数组的子集只能从一端添加元素，也只能从一端取出元素这一端称为栈顶栈是一种后进先出的数据结构。 2、栈的应用 1) 编辑器无处不在的Undo操作(撤销) 2) 程序调用的系统栈函数A中调用函数B，函数B中调用函数C。如果C函数执行完阅读全文

posted @ 2021-02-07 13:50 work hard work smart 阅读(126) 评论(0) 推荐(0)

自定义数组(动态数组)

摘要：数组的定义，参考Java 数组数组的使用 1、定义一个数组 //必须初始化数组的长度，这里为10 int[] arr = new int[10]; for(int i = 0;i < arr.length; i++){ arr[i] = i; } //设置初始值 int[] score = new 阅读全文

posted @ 2021-02-07 09:26 work hard work smart 阅读(339) 评论(0) 推荐(0)

Spark环境搭建

摘要：一、Spark下载进入官网下载需要的版本： http://archive.apache.org/dist/spark/ 官网下载地址太慢，建议在Apache国内镜像下载地址1：http://mirror.bit.edu.cn/apache/ 地址2：https://mirrors.tuna.ts 阅读全文

posted @ 2021-02-04 15:38 work hard work smart 阅读(185) 评论(0) 推荐(0)

Spark SQL概述

摘要：一、Spark SQL介绍 1、为什么需要SQL 1) 事实上的标准 2) 易学易用 3) 受众面大 2、Shark（已经停止维护，不建议在生产上使用。） Shark产生的目的就是为了让hive跑在spark之上。 Hive：类似于sql的Hive QL语言， sql 翻译成 mapreduce 阅读全文

posted @ 2021-02-03 16:29 work hard work smart 阅读(149) 评论(0) 推荐(0)

Spark生态圈概述

摘要： Spark是一个快速且通用的集群计算平台 1、Spark概述及特点 1) Speed：速度。执行速度快，开发速度提高了很多。 Spark扩充了流行的MapReduce计算模型 Spark是基于内存的计算。 2) Ease of User：易用。支持多种语言,如Python，Java，Scala等阅读全文

posted @ 2021-02-03 13:37 work hard work smart 阅读(340) 评论(0) 推荐(0)

大数据数据仓库Hive基本使用

摘要： 1、创建表 create table hive_wordcount(context string); 2、查看表 show tables; 3、查询表数据 4、查看刚才创建的Mysql数据库sparksql的表TBLS，可以发现已经有1条记录了，TBL_NAME 为hive_wordcount 从C 阅读全文

posted @ 2021-02-02 23:12 work hard work smart 阅读(174) 评论(0) 推荐(0)

大数据数据仓库Hive

摘要： 1、Hive是什么由Facebook开源，最初用于解决海量结构化的日志数据统计问题。构建在Hadoop之上的数据仓库 Hive定义了一种类SQL查询语言： HQL（类似SQL但不完全相同）通常用于进行离线数据处理（采用MapReduce）底层支持多种不同的执行引擎（包括MapReduce、T 阅读全文

posted @ 2021-02-02 21:12 work hard work smart 阅读(184) 评论(0) 推荐(0)

资源调度框架YARN介绍

摘要： 1、YARN架构图片来自： https://hadoop.apache.org/docs/r3.2.2/hadoop-yarn/hadoop-yarn-site/YARN.html 1个RN（ResourceManager）和多个NM(NodeManager) ResourceManager职责：阅读全文

posted @ 2021-01-31 23:09 work hard work smart 阅读(183) 评论(0) 推荐(0)

MapReduce介绍

摘要：这里简单介绍下MapReduce 1、什么是MapReduce 1、源自Google的MapReduce论文 2、发表于2004年12月，Hadoop MapReduce是Google MapReduce的克隆版 2、MapReduce特点易于编程良好的扩展性高容错性海量数据的离线处理 3、阅读全文

posted @ 2021-01-31 12:20 work hard work smart 阅读(203) 评论(0) 推荐(0)

HBase安装和常用命令使用

摘要： HBase安装 HBase下载：http://archive.apache.org/dist/hbase/ 我这里下载的是hbase-1.1.0-bin.tar.gz 1) 解压： tar -zxvf hbase-1.1.0-bin.tar.gz 2) 配置JDK /root/tools/hbase 阅读全文

posted @ 2021-01-30 23:10 work hard work smart 阅读(159) 评论(0) 推荐(0)

大数据基本概念介绍

摘要：一、什么是大数据专业咨询公司IDC对大数据特征的定义： 4V 1、数据量（Volume）： TB，PB级别以上。 2、多样性，复杂性（Variety）: 结构化数据(关系型数据库），文件，视频，音频、图像，地理位置 3、基于高度分析的新价值（Value）：价值密度比较低，比如1个小时的视频，只有阅读全文

posted @ 2021-01-30 19:20 work hard work smart 阅读(486) 评论(0) 推荐(0)

java 8 Stream流编程

摘要：一、基本概念 1、Stream是一个高级的迭代器，不是数据结构，不是一个集合，不会存放数据。关注的是数据高效的处理，数据在一个流水线中执行。 2、外部迭代和内部迭代 public class StreamDemo1 { public static void main(String[] args) { 阅读全文

posted @ 2021-01-18 13:35 work hard work smart 阅读(270) 评论(0) 推荐(0)

Kafka海量日志收集实战2-logstash日志过滤

摘要：一、logstash安装 logstash作为kafka日志的消费者 1、将文件上传到服务器/home/tools路径下 tar -zxvf logstash-7.4.2.tar.gz -C /usr/local/ 进入/usr/local/logstash-7.4.2，查看文件 2、创建scrip 阅读全文

posted @ 2021-01-14 16:33 work hard work smart 阅读(664) 评论(0) 推荐(0)

Kafka海量日志收集实战1

摘要：一、设计 1、海量日志收集架构设计(ELK) Beats: 主要用于收集日志 Filebeat：监控文件的变更，将变更抓取出来。然后输出到其它地方。（使用Filebeat将收集过来数据转储到Kafka） Logstash：对日志进行过滤。对过滤的数据存储到Elasticsearch Kibana 阅读全文

posted @ 2021-01-14 13:48 work hard work smart 阅读(619) 评论(0) 推荐(0)

ElasticSearch 自定义模板配置中文分词

摘要：默认情况下，logstash是没有配置中文分词的，那要如何解决呢？解放方法：自定义模板配置中文分词自定义模板中增加分词器 1、创建自定义模板完整的模板内容 logstash-ik.json { "order": 0, "version": 1, "index_patterns": ["*" 阅读全文

posted @ 2021-01-12 18:01 work hard work smart 阅读(436) 评论(0) 推荐(0)

Kafka总结

摘要： 152、Kafka可以脱离zookeeper单独使用吗？为什么？ kafka不能推理Zookeeper单独使用，因为Kafka使用Zookeeper管理和协调kafka的节点服务器。 153. kafka有几种消息保留测策略。 kafka有两种消息保存策略：按过去时间保留和按照存储的消息大小保留阅读全文

posted @ 2021-01-12 17:55 work hard work smart 阅读(123) 评论(0) 推荐(0)

公告