摘要: Stratified sampling 1. 基本概念 统计学理论中,分层抽样针对的是对一个总体(population)进行抽样的方法。尤其适用于当总体内部,子总体(subpopulations)间差异较大时。每一个 subpopulation,也称为层(stratum)。 LL 表示层的数量,其中 阅读全文
posted @ 2018-07-11 15:08 一直爬行的蜗牛牛 阅读(1787) 评论(0) 推荐(0) 编辑
摘要: 本地矩阵具有整型的行、列索引值和双精度浮点型的元素值,它存储在单机上。MLlib支持稠密矩阵DenseMatrix和稀疏矩阵Sparse Matrix两种本地矩阵,稠密矩阵将所有元素的值存储在一个列优先(Column-major)的双精度型数组中,而稀疏矩阵则将非零元素以列优先的CSC(Compre 阅读全文
posted @ 2018-07-10 14:04 一直爬行的蜗牛牛 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 标注点LabeledPoint是一种带有标签(Label/Response)的本地向量,它可以是稠密或者是稀疏的。在MLlib中,标注点在监督学习算法中被使用。由于标签是用双精度浮点型来存储的,故标注点类型在回归(Regression)和分类(Classification)问题上均可使用。例如,对于 阅读全文
posted @ 2018-07-10 11:49 一直爬行的蜗牛牛 阅读(5575) 评论(1) 推荐(1) 编辑
摘要: Spark mlib的本地向量有两种: DenseVctor :稠密向量 其创建方式 Vector.dense(数据) SparseVector :稀疏向量 其创建方式有两种: 方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组) 方法二:Vector.sparse( 阅读全文
posted @ 2018-07-10 11:29 一直爬行的蜗牛牛 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 《Spark 官方文档》机器学习库(MLlib)指南 spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底 阅读全文
posted @ 2018-07-10 11:21 一直爬行的蜗牛牛 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 可以直接使用org.apache.hadoop.yarn.client.cli.LogsCLI(yarn logs -applicationId)中的main方法逻辑,如 public static void main(String[] args) throws Exception { Config 阅读全文
posted @ 2018-07-04 13:57 一直爬行的蜗牛牛 阅读(1738) 评论(0) 推荐(0) 编辑
摘要: Java内存区域的划分和异常 运行时数据区域 JVM在运行Java程序时候会将内存划分为若干个不同的数据区域。 打开百度App,看更多美图 程序计数器 线程私有。可看作是当前线程所执行的字节码的行号指示器,字节码解释器的工作是通过改变这个计数值来读取下一条要执行的字节码指令。 多线程是通过线程轮流切 阅读全文
posted @ 2018-06-12 14:14 一直爬行的蜗牛牛 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 获取hbase版本 curl -vi -X GET -H "Accept: text/xml" http://10.8.4.46:20550/version/cluster1.2.6 获取集群状态: curl -vi -X GET -H "Accept: text/xml" http://10.8. 阅读全文
posted @ 2018-06-12 14:09 一直爬行的蜗牛牛 阅读(748) 评论(0) 推荐(0) 编辑
摘要: docker镜像、容器、仓库以及测试下的docker dockerfile定义container构建的过程,基于同样的dockerfile,开发,测试,部署人员看见的内容是一模一样的,构建的环境也就是一样的;并且能够高效的利用资源; docker与传统的寻你化技术不同,它不需要专门的虚拟化管理层,是 阅读全文
posted @ 2018-06-12 14:08 一直爬行的蜗牛牛 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 虚拟化: varmvare,virtualbox docker:container技术(以内核为支撑进行虚拟机)。不用安装操作系统直接通过宿主机的os虚拟化出应用 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器 阅读全文
posted @ 2018-06-12 14:06 一直爬行的蜗牛牛 阅读(374) 评论(0) 推荐(0) 编辑