2019 年 5月随笔档案 - jareny

线程抛出请求异常-1

摘要：package com.it; public class TimeoutThread extends Thread{ /** * 计时器超时时间 */ private long timeout; /** * 计时是否被取消 */ private boolean isCanceled = false; 阅读全文

posted @ 2019-05-13 07:39 jareny 阅读(129) 评论(0) 推荐(0) 编辑

超时请求异常-2

摘要：package com.it; public class TimeoutException extends RuntimeException { /** * 序列化号 */ private static final long serialVersionUID = -80788536553886926 阅读全文

posted @ 2019-05-13 07:39 jareny 阅读(158) 评论(0) 推荐(0) 编辑

请求超时处理

摘要：package com.it; import java.io.ByteArrayOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net 阅读全文

posted @ 2019-05-13 07:13 jareny 阅读(1544) 评论(0) 推荐(0) 编辑

SpringBoot的pom.xml配置

摘要：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch 阅读全文

posted @ 2019-05-13 06:58 jareny 阅读(1876) 评论(0) 推荐(0) 编辑

flink专题

摘要：一、Storm （一）什么是Storm? Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流阅读全文

posted @ 2019-05-01 14:25 jareny 阅读(1213) 评论(0) 推荐(0) 编辑

kafka专题-1

摘要：大数据技术之Kafka一 Kafka概述 1.1 Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2）Kafka最初是由阅读全文

posted @ 2019-05-01 14:24 jareny 阅读(259) 评论(0) 推荐(0) 编辑

docker专题

摘要：git 版本控制系统 git是一个版本控制系统一、什么是版本控制系统？ 1、概念版本控制是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统。（*）记录文件的所有历史变化（*）随时可恢复到任何一个历史状态（*）多人协作开发或修改（*）错误恢复（*）多功能并行开发产品阅读全文

posted @ 2019-05-01 14:23 jareny 阅读(122) 评论(0) 推荐(0) 编辑

kafka专题

摘要：Kafka 一、Kafka是什么 kafka一般用来缓存数据。 1、开源消息系统 2、最初是LinkedIn公司开发，2011年开源。2012年10月从Apache Incubator毕业。项目目标是为处理实时数据，提供一个统一、高通量、低等待的平台。 3、Kafka是一个分布式消息队列。消息根阅读全文

posted @ 2019-05-01 14:22 jareny 阅读(126) 评论(0) 推荐(0) 编辑

git专题

摘要：git 版本控制系统 git是一个版本控制系统一、什么是版本控制系统？ 1、概念版本控制是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统。（*）记录文件的所有历史变化（*）随时可恢复到任何一个历史状态（*）多人协作开发或修改（*）错误恢复（*）多功能并行开发产品阅读全文

posted @ 2019-05-01 14:22 jareny 阅读(127) 评论(0) 推荐(0) 编辑

HA专题

摘要：Hadoop Hbase HA 保证服务器时间相同date -s 2019-04-21 把所有机器时间设置成00:00:00 一、Hadoop HA HDFS HA /usr/local/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件 core-site.xml <co 阅读全文

posted @ 2019-05-01 14:21 jareny 阅读(105) 评论(0) 推荐(0) 编辑

内存数据库专题-5

摘要：内存数据库专题为什么要把数据存入内存？快常见的内存数据库： MemCached：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失。 Redis：内存数据库，支持持久化，支持HA Oracle TimesTen session一致性阅读全文

posted @ 2019-05-01 14:20 jareny 阅读(141) 评论(0) 推荐(0) 编辑

内存数据库专题-3

摘要：SparkGraphX 应用解析目录第1章 Spark GraphX概述3 1.1 什么是Spark GraphX 3 1.2 弹性分布式属性图 5 1.3 运行图计算程序 7 第2章 Spark GraphX解析10 2.1 存储模式 10 2.1.1 图存储模式 10 2.1.2 Grap 阅读全文

posted @ 2019-05-01 14:17 jareny 阅读(338) 评论(0) 推荐(0) 编辑

内存数据库专题-4

摘要：内存数据库专题为什么要把数据存入内存？快常见的内存数据库： MemCached：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失。 Redis：内存数据库，支持持久化，支持HA Oracle TimesTen session一致性阅读全文

posted @ 2019-05-01 14:17 jareny 阅读(118) 评论(0) 推荐(0) 编辑

内存数据库专题-2

摘要：内存数据库专题为什么要把数据存入内存？快常见的内存数据库： MemCached：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失。 Redis：内存数据库，支持持久化，支持HA Oracle TimesTen session一致性阅读全文

posted @ 2019-05-01 14:15 jareny 阅读(96) 评论(0) 推荐(0) 编辑

内存数据库专题-1

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark Streaming Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Sp 阅读全文

posted @ 2019-05-01 14:14 jareny 阅读(156) 评论(0) 推荐(0) 编辑

Spark MLlib GraphX-1

摘要：SparkGraphX 应用解析目录第1章 Spark GraphX概述3 1.1 什么是Spark GraphX 3 1.2 弹性分布式属性图 5 1.3 运行图计算程序 7 第2章 Spark GraphX解析10 2.1 存储模式 10 2.1.1 图存储模式 10 2.1.2 Grap 阅读全文

posted @ 2019-05-01 14:11 jareny 阅读(589) 评论(0) 推荐(0) 编辑

Spark MLlib GraphX

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark Streaming Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Sp 阅读全文

posted @ 2019-05-01 14:10 jareny 阅读(220) 评论(0) 推荐(0) 编辑

Spark-Streaming进阶与Spark优化

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark Streaming Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Sp 阅读全文

posted @ 2019-05-01 14:09 jareny 阅读(519) 评论(0) 推荐(0) 编辑

Spark-Streaming基础

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 14:06 jareny 阅读(253) 评论(0) 推荐(0) 编辑

Spark-SQL基础

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 14:05 jareny 阅读(457) 评论(0) 推荐(0) 编辑

Spark-SQL高级

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 14:05 jareny 阅读(767) 评论(0) 推荐(0) 编辑

Spark案例分析

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 14:04 jareny 阅读(995) 评论(0) 推荐(0) 编辑

Spark-RDD高级算子

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 14:03 jareny 阅读(235) 评论(0) 推荐(0) 编辑

Spark-RDD算子

摘要：Spark课堂笔记 Spark生态圈： Spark Core ： RDD（弹性分布式数据集） Spark SQL Spark Streaming Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习 Spark Graphx ：图计算重点在前三章 Spark Core 一、什阅读全文

posted @ 2019-05-01 14:02 jareny 阅读(112) 评论(0) 推荐(0) 编辑

Spark集群安装部署

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 14:00 jareny 阅读(148) 评论(0) 推荐(0) 编辑

Scala高级语法-1

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 13:59 jareny 阅读(82) 评论(0) 推荐(0) 编辑

Scala高级语法

摘要：1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算阅读全文

posted @ 2019-05-01 13:58 jareny 阅读(361) 评论(0) 推荐(0) 编辑

scala的集合框架与常用方法

摘要：1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算阅读全文

posted @ 2019-05-01 13:57 jareny 阅读(360) 评论(0) 推荐(0) 编辑

scala的面向对象,继承与特质

摘要：1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算阅读全文

posted @ 2019-05-01 13:55 jareny 阅读(508) 评论(0) 推荐(0) 编辑

scala的面向对象，类与构造器

摘要：1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算阅读全文

posted @ 2019-05-01 13:54 jareny 阅读(465) 评论(0) 推荐(0) 编辑

scala的简介安装与基础语法

摘要：大数据技术之Scala 第一篇：Scala编程语言一、Scala语言基础 1、Scala简介 Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。它也能运行于CLDC配置的Java ME 阅读全文

posted @ 2019-05-01 13:53 jareny 阅读(258) 评论(0) 推荐(0) 编辑

Elasticsearch（二）

摘要：大数据技术之Elasticsearch 一概述 1.1 什么是搜索百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索 1）互联网的搜索：电商网站，招聘网站，新闻网站，各种a 阅读全文

posted @ 2019-05-01 13:52 jareny 阅读(495) 评论(0) 推荐(0) 编辑

Elasticsearch（一）

摘要：# ElasticSearch课堂笔记 Search and analyze your data in real time. ## 1. 全文检索技术简介 ### 什么是搜索？搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息。阅读全文

posted @ 2019-05-01 13:51 jareny 阅读(110) 评论(0) 推荐(0) 编辑

Hbase-优化

摘要：hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是阅读全文

posted @ 2019-05-01 13:47 jareny 阅读(242) 评论(0) 推荐(0) 编辑

Hbase-MR

摘要：hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是阅读全文

posted @ 2019-05-01 13:46 jareny 阅读(120) 评论(0) 推荐(0) 编辑

Hbase安装部署

摘要：hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是阅读全文

posted @ 2019-05-01 13:45 jareny 阅读(115) 评论(0) 推荐(0) 编辑

azkaban

摘要：Azkaban官网：https://azkaban.github.io/Azkaban是一款开源工作流管理器。Azkaban是在LinkedIn上创建的批处理工作流作业调度程序，用于运行Hadoop作业。Azkaban通过作业依赖性解决订单，并提供易于使用的Web用户界面来维护和跟踪您的工作流程。工阅读全文

posted @ 2019-05-01 13:44 jareny 阅读(192) 评论(0) 推荐(0) 编辑

sqoop&azkaban-2

摘要：Azkaban官网：https://azkaban.github.io/Azkaban是一款开源工作流管理器。Azkaban是在LinkedIn上创建的批处理工作流作业调度程序，用于运行Hadoop作业。Azkaban通过作业依赖性解决订单，并提供易于使用的Web用户界面来维护和跟踪您的工作流程。工阅读全文

posted @ 2019-05-01 13:43 jareny 阅读(81) 评论(0) 推荐(0) 编辑

sqoop&azkaban-1

摘要：sqoopflume数据采集采集日志数据sqoop数据迁移 hdfs->mysqlazkaban任务调度 flume->hdfs->shell->hive->sql->BIsqoop数据迁移=mapreduce处理离线数据整个过程就是数据导入处理导出过程直接使用mapsqoop作用：简化开发mys 阅读全文

posted @ 2019-05-01 13:42 jareny 阅读(106) 评论(0) 推荐(0) 编辑

Sqoop

摘要：sqoopflume数据采集采集日志数据sqoop数据迁移 hdfs->mysqlazkaban任务调度 flume->hdfs->shell->hive->sql->BIsqoop数据迁移=mapreduce处理离线数据整个过程就是数据导入处理导出过程直接使用mapsqoop作用：简化开发mys 阅读全文

posted @ 2019-05-01 13:41 jareny 阅读(148) 评论(0) 推荐(0) 编辑

hive函数&压缩

摘要：hive官网：http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。阅读全文

posted @ 2019-05-01 13:39 jareny 阅读(178) 评论(0) 推荐(0) 编辑

Flume

摘要：flume概述：Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。它使用简单的可扩展数据模型，允许在线分析应用程序。1）数据采集（爬虫\日志数据\flume）2）数据阅读全文

posted @ 2019-05-01 13:39 jareny 阅读(81) 评论(0) 推荐(0) 编辑

查询&压缩

摘要：hive官网：http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。阅读全文

posted @ 2019-05-01 13:38 jareny 阅读(101) 评论(0) 推荐(0) 编辑

DDL&DML操作

摘要：selectmin(sal)fromemptable 阅读全文

posted @ 2019-05-01 13:37 jareny 阅读(69) 评论(0) 推荐(0) 编辑

Hive数据类型

摘要：hive官网：http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。阅读全文

posted @ 2019-05-01 13:35 jareny 阅读(170) 评论(0) 推荐(0) 编辑

Hive安装部署

摘要：hive官网：http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。阅读全文

posted @ 2019-05-01 13:34 jareny 阅读(132) 评论(0) 推荐(0) 编辑

Zookeeper使用

摘要：Zookeeper官网：http://zookeeper.apache.org/介绍：Apache ZooKeeper致力于开发和维护开源服务器，实现高度可靠的分布式协调。动物管理员ZooKeeper是一种集中式服务，用于维护配置信息，命名，提供分布式同步和提供组服务。所有这些类型的服务都以分布式应阅读全文

posted @ 2019-05-01 13:33 jareny 阅读(446) 评论(0) 推荐(0) 编辑

Zookeeper介绍

摘要：Zookeeper官网：http://zookeeper.apache.org/介绍：Apache ZooKeeper致力于开发和维护开源服务器，实现高度可靠的分布式协调。动物管理员ZooKeeper是一种集中式服务，用于维护配置信息，命名，提供分布式同步和提供组服务。所有这些类型的服务都以分布式应阅读全文

posted @ 2019-05-01 13:32 jareny 阅读(129) 评论(0) 推荐(0) 编辑

优化&算法-2

摘要：冒泡排序冒泡排序（Bubble Sort），是一种计算机科学领域的较简单的排序算法。它重复地走访过要排序的元素列，依次比较两个相邻的元素，如果他们的顺序（如从大到小、首字母从A到Z）错误就把他们交换过来。走访元素的工作是重复地进行直到没有相邻元素需要交换，也就是说该元素已经排序完成。这个算法的名字由阅读全文

posted @ 2019-05-01 13:31 jareny 阅读(101) 评论(0) 推荐(0) 编辑

优化&算法-1