05 2019 档案
摘要:package com.it; public class TimeoutThread extends Thread{ /** * 计时器超时时间 */ private long timeout; /** * 计时是否被取消 */ private boolean isCanceled = false;
阅读全文
摘要:package com.it; public class TimeoutException extends RuntimeException { /** * 序列化号 */ private static final long serialVersionUID = -80788536553886926
阅读全文
摘要:package com.it; import java.io.ByteArrayOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net
阅读全文
摘要:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch
阅读全文
摘要:一、Storm (一)什么是Storm? Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流
阅读全文
摘要:大数据技术之Kafka一 Kafka概述 1.1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由
阅读全文
摘要:git 版本控制系统 git是一个版本控制系统 一、什么是版本控制系统? 1、概念 版本控制是一种 记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。 (*)记录文件的所有历史变化 (*)随时可恢复到任何一个历史状态 (*)多人协作开发或修改 (*)错误恢复 (*)多功能并行开发 产品
阅读全文
摘要:Kafka 一、Kafka是什么 kafka一般用来缓存数据。 1、开源消息系统 2、最初是LinkedIn公司开发,2011年开源。2012年10月从Apache Incubator毕业。 项目目标是为处理实时数据,提供一个统一、高通量、低等待的平台。 3、Kafka是一个分布式消息队列。 消息根
阅读全文
摘要:git 版本控制系统 git是一个版本控制系统 一、什么是版本控制系统? 1、概念 版本控制是一种 记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。 (*)记录文件的所有历史变化 (*)随时可恢复到任何一个历史状态 (*)多人协作开发或修改 (*)错误恢复 (*)多功能并行开发 产品
阅读全文
摘要:Hadoop Hbase HA 保证服务器时间相同date -s 2019-04-21 把所有机器时间设置成00:00:00 一、Hadoop HA HDFS HA /usr/local/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件 core-site.xml <co
阅读全文
摘要:内存数据库专题 为什么要把数据存入内存? 快 常见的内存数据库: MemCached:看成Redis前身,严格来说,MemCached不能叫数据库,只能叫缓存 不支持持久化。如果内存停电,数据丢失。 Redis:内存数据库,支持持久化,支持HA Oracle TimesTen session一致性
阅读全文
摘要:SparkGraphX 应用解析 目 录 第1章 Spark GraphX概述3 1.1 什么是Spark GraphX 3 1.2 弹性分布式属性图 5 1.3 运行图计算程序 7 第2章 Spark GraphX解析10 2.1 存储模式 10 2.1.1 图存储模式 10 2.1.2 Grap
阅读全文
摘要:内存数据库专题 为什么要把数据存入内存? 快 常见的内存数据库: MemCached:看成Redis前身,严格来说,MemCached不能叫数据库,只能叫缓存 不支持持久化。如果内存停电,数据丢失。 Redis:内存数据库,支持持久化,支持HA Oracle TimesTen session一致性
阅读全文
摘要:内存数据库专题 为什么要把数据存入内存? 快 常见的内存数据库: MemCached:看成Redis前身,严格来说,MemCached不能叫数据库,只能叫缓存 不支持持久化。如果内存停电,数据丢失。 Redis:内存数据库,支持持久化,支持HA Oracle TimesTen session一致性
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark Streaming Spark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Sp
阅读全文
摘要:SparkGraphX 应用解析 目 录 第1章 Spark GraphX概述3 1.1 什么是Spark GraphX 3 1.2 弹性分布式属性图 5 1.3 运行图计算程序 7 第2章 Spark GraphX解析10 2.1 存储模式 10 2.1.1 图存储模式 10 2.1.2 Grap
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark Streaming Spark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Sp
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark Streaming Spark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Sp
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Spa
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Spa
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Spa
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Spa
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Spa
阅读全文
摘要:Spark课堂笔记 Spark生态圈: Spark Core : RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习 Spark Graphx : 图计算 重点在前三章 Spark Core 一、什
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Spa
阅读全文
摘要:Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三章 Spark Core 一、什么是Spa
阅读全文
摘要:1、scala编程语言 2、Spark Core : Spark内核 ,最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming :类似于 storm,用于流式计算、实时计算。本质:一个离线计算
阅读全文
摘要:1、scala编程语言 2、Spark Core : Spark内核 ,最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming :类似于 storm,用于流式计算、实时计算。本质:一个离线计算
阅读全文
摘要:1、scala编程语言 2、Spark Core : Spark内核 ,最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming :类似于 storm,用于流式计算、实时计算。本质:一个离线计算
阅读全文
摘要:1、scala编程语言 2、Spark Core : Spark内核 ,最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming :类似于 storm,用于流式计算、实时计算。本质:一个离线计算
阅读全文
摘要:大数据技术之Scala 第一篇:Scala编程语言 一、Scala语言基础 1、Scala简介 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的Java ME
阅读全文
摘要:大数据技术之Elasticsearch 一 概述 1.1 什么是搜索 百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印象)。百度 != 搜索 1)互联网的搜索:电商网站,招聘网站,新闻网站,各种a
阅读全文
摘要:# ElasticSearch课堂笔记 Search and analyze your data in real time. ## 1. 全文检索技术简介 ### 什么是搜索? 搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息。
阅读全文
摘要:hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是
阅读全文
摘要:hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是
阅读全文
摘要:hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是
阅读全文
摘要:Azkaban官网:https://azkaban.github.io/Azkaban是一款开源工作流管理器。Azkaban是在LinkedIn上创建的批处理工作流作业调度程序,用于运行Hadoop作业。Azkaban通过作业依赖性解决订单,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。工
阅读全文
摘要:Azkaban官网:https://azkaban.github.io/Azkaban是一款开源工作流管理器。Azkaban是在LinkedIn上创建的批处理工作流作业调度程序,用于运行Hadoop作业。Azkaban通过作业依赖性解决订单,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。工
阅读全文
摘要:sqoopflume数据采集 采集日志数据sqoop数据迁移 hdfs->mysqlazkaban任务调度 flume->hdfs->shell->hive->sql->BIsqoop数据迁移=mapreduce处理离线数据整个过程就是数据导入处理导出过程直接使用mapsqoop作用:简化开发mys
阅读全文
摘要:sqoopflume数据采集 采集日志数据sqoop数据迁移 hdfs->mysqlazkaban任务调度 flume->hdfs->shell->hive->sql->BIsqoop数据迁移=mapreduce处理离线数据整个过程就是数据导入处理导出过程直接使用mapsqoop作用:简化开发mys
阅读全文
摘要:hive官网:http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。
阅读全文
摘要:flume概述:Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应用程序。1)数据采集(爬虫\日志数据\flume)2)数据
阅读全文
摘要:hive官网:http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。
阅读全文
摘要:hive官网:http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。
阅读全文
摘要:hive官网:http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。
阅读全文
摘要:Zookeeper官网:http://zookeeper.apache.org/介绍:Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。动物管理员ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应
阅读全文
摘要:Zookeeper官网:http://zookeeper.apache.org/介绍:Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。动物管理员ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应
阅读全文
摘要:冒泡排序冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法。它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果他们的顺序(如从大到小、首字母从A到Z)错误就把他们交换过来。走访元素的工作是重复地进行直到没有相邻元素需要交换,也就是说该元素已经排序完成。这个算法的名字由
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文
摘要:hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml
阅读全文