摘要:
1. 概述 在实际开发过程中,我们经常需要调用对方提供的接口或测试自己写的接口是否合适。很多项目都会封装规定好本身项目的接口规范,所以大多数需要去调用对方提供的接口或第三方接口(短信、天气等)。 在Java项目中调用第三方接口的方式有: ①通过JDK网络类Java.net.HttpURLConnec 阅读全文
摘要:
常见分类模型与算法 距离判别法,即最近邻算法KNN; 贝叶斯分类器; 线性判别法,即逻辑回归算法; 决策树; 支持向量机; 神经网络; 1. KNN分类算法原理及应用 1.1 KNN概述 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 KNN算法的指导思想是 阅读全文
摘要:
本章导读 机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识、新技能,并重组已学习的知识结构使之不断改善自身。 MLlib是Spark提供的可扩展的机器学习库。ML 阅读全文
摘要:
1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 1.2 为 阅读全文
摘要:
1. HBase简介 1.1 什么是HBase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成 阅读全文
摘要:
1.RPC原理解析 1.1 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP/IP或UDP,为通信程序之间携带信息数据。RP 阅读全文
摘要:
1. Excel2003与Excel2007 两个版本的最大行数和列数不同,2003版最大行数是65536行,最大列数是256列,2007版及以后的版本最大行数是1048576行,最大列数是16384列。 excel2003是以二进制的方式存储,这种格式不易被其他软件读取使用;而excel2007采 阅读全文
摘要:
1.概述 这篇 IntelliJ IDEA自身以及maven项目打包方式(单模块)博文主要是描述项目下单个模块的打包方式,但是现在很多项目往往是多模块组成的,单模块打包方式与多模块差异比较大,所以我们还是有必要学下如何配置多模块打包。 2. Maven打包方式(多模块) 这里我们主要采用的是mave 阅读全文
摘要:
1. 概述 Flink采用的稳定版本为flink-1.12.1。以往我们所熟知的Map Reduce,Storm,Spark等框架可能在某些场景下已经没法完全地满足用户的需求,或者是实现需求所付出的代价,无论是代码量和架构的复杂程度可能都没法满足预期的需求。新场景的出现催产出新的技术,Flink即为 阅读全文
摘要:
1. 概述 solr使用kerberos principal和keytab文件来认证zookeeper和solr集群。kerberos认证插件仅仅在solrcloud模式下有用。 当设置solr使用kerberos的时候,一个在KDC中注册认证的服务principal或者kerberos用户名的配置 阅读全文
摘要:
1. 概述 当前ranger版本为ranger-1.2.0 2. 生成用户主体 在kerberos服务器生成用于ranger的用户主体: root@~:/# kadmin.local kadmin.local: addprinc -randkey http/node3@EXAMPLE.COM kad 阅读全文
摘要:
1. 概述 openldap集成kerberos,有两种,一是openldap和kerberos各自拥有个人的数据库,一是openldap和kerberos共用一个数据库。 以下操作是在https://www.cnblogs.com/swordfall/p/12009716.html Kerbero 阅读全文
摘要:
1. 概述 为啥要用TLS? Openldap默认使用简单验证,对slapd的所有访问都使用明文密码通过未加密通道进行。为了确保信息安全,需要对信息进行加密传输,SSL(Secure Sockets Layer)是一个可靠的解决方案。 它使用X.509证书,由可信任第三方(Certificate A 阅读全文
摘要:
1. 概述 Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format th 阅读全文
摘要:
1. Hive的架构 Hive的体系结构可以分为以下几部分: 用户接口主要有三个:CLI,JDBC/ODBC和 Web UI。 ①其中,最常用的是CLI,即Shell命令行; ②JDBC/ODBC Client是Hive的Java客户端,与使用传统数据库JDBC的方式类似,用户需要连接至Hive S 阅读全文
摘要:
1. 概念及理解 PO、DTO、VO、BO都叫POJO,就是个简单的java对象。这些概念用于描述对象的类型;由于java是面向对象的语言;程序的世界就是各个对象之间的“交互”;在交互的过程中会存在多个层次,每个层次中所拥有的内容都是不一样的; PO(Persistant Object)持久化对象。 阅读全文
摘要:
1.概述 无可避免地,我们都需要用到多线程的一天。单纯地使用多线程的参数设置,比如-Xms、-Xmx、-Xss等,还不足够,我们还要学会如何分析JVM里面的线程状况。 在进行java程序问题定位时,内存问题定位是很关键的,jvm自带的命令可以方便的在生产监控和打印堆栈的日志信息帮忙我们来定位问题!虽 阅读全文