上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 15 下一页
摘要: 压缩优缺点 优点: 减少存储磁盘空间 降低 IO (网络的 IO 和磁盘的IO) 加快数据在磁盘和网络中的传输速度, 从而提高系统的处理速度 缺点: 由于使用数据时, 需要先将数据解压, 加重CPU负荷 常见压缩格式 | 压缩格式 | 工具 | 算法 | 文件扩展名 | 是否可切分 | 对应的编码/ 阅读全文
posted @ 2019-12-05 10:37 wellDoneGaben 阅读(1849) 评论(0) 推荐(0) 编辑
摘要: 常用开源协议 GPL(GNU General Public License) 我们很熟悉的Linux 就是采用了GPL 。GPL 协议和BSD, Apache Licence 等鼓励代码重用的许可很不一样。 GPL不允许修改后和衍生的代码做为闭源的商业软件发布和销售。 这也就是为什么我们能用免费的各 阅读全文
posted @ 2019-12-04 17:49 wellDoneGaben 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 简介 众所周知,HDFS是大数据存储系统,并在业界得到了广泛的使用。但是无论大集群还是小集群其扩展性都受NameNode的限制,虽然HDFS可以通过Federation进行扩展,但是依然深受小文件和4亿个文件的困扰。 于是分布式key value存储系统Ozone诞生了,Ozone能够轻松管理小文件 阅读全文
posted @ 2019-12-04 14:29 wellDoneGaben 阅读(3021) 评论(1) 推荐(1) 编辑
摘要: 上接: https://www.cnblogs.com/ronnieyuan/p/11885463.html 简介 双亲委派模型并不是一个强制性的约束模型, 而是Java设计者推荐给开发者的类加载器实现方式。 在Java的世界中大部分的类加载器都遵循这个模型, 但也有例外, 历史上出现过3次较大规模 阅读全文
posted @ 2019-12-03 11:02 wellDoneGaben 阅读(1249) 评论(0) 推荐(1) 编辑
摘要: 安装 国内源下载地址: "http://mirror.bit.edu.cn/pentaho/Data%20Integration/7.1/" window下直接解压, jdk环境变量配置好, 点击Spoon.bat即可 简介 一个转换就是一个ETL的过程,而作业则是多个转换、作业的集合。 在作业中可 阅读全文
posted @ 2019-12-02 21:51 wellDoneGaben 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 1. 前置条件: 已经安装好了带有HDFS, MapReduce, Yarn 功能的 Hadoop集群 链接: "ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建" 2. 上传tar包并解压到指定目录: 3. 修改hive配置文件: 新建文件夹 阅读全文
posted @ 2019-12-02 12:48 wellDoneGaben 阅读(5564) 评论(0) 推荐(0) 编辑
摘要: 简介 Netty 是由JBOSS提供的一个 Java开源框架, 现在是 Github上的开源项目 Netty 是一个异步的、基于事件驱动的网络应用框架式, 用以快速开发高性能、高可靠性的网路IO程序 Netty主要针对在TCP协议下, 面向客户端的高并发应用, 或者 Peer to Peer(对等的 阅读全文
posted @ 2019-12-01 18:43 wellDoneGaben 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 简介 聚类是一种无监督的机器学习任务,它可以自动将数据划分成类cluster。 聚类 给事物打标签,寻找同一组内的个体之间的一些潜在的相似模式。力图找到数据的自然分组kmeans 因此聚类分组不需要提前被告知所划分的组应该是什么样的。 因为我们甚至可能都不知道我们在寻找什么,所以聚类是用于知识发现而 阅读全文
posted @ 2019-11-30 16:59 wellDoneGaben 阅读(965) 评论(0) 推荐(0) 编辑
摘要: 简介 Consul是基于GO语言开发的开源工具,主要面向分布式,服务化的系统提供服务注册、服务发现和配置管理的功能。 Consul的功能都很实用,其中包括:服务注册/发现、健康检查、Key/Value存储、多数据中心和分布式一致性保证等特性。 Consul本身只是一个二进制的可执行文件,所以安装和部 阅读全文
posted @ 2019-11-29 22:31 wellDoneGaben 阅读(1163) 评论(0) 推荐(0) 编辑
摘要: 简介 机器学习算法中,有种依据概率原则进行分类的朴素贝叶斯算法,正如气象学家预测天气一样,朴素贝叶斯算法就是应用先前事件的有关数据来估计未来事件发生的概率 公式 P(A|B) = P(A) P(B|A)/P(B) 解释: P(A): A事件发生的概率。 P(B): B事件发生的概率。 P(A | B 阅读全文
posted @ 2019-11-29 19:06 wellDoneGaben 阅读(2759) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 15 下一页