摘要: order by,全排序 出于安全原因,不加limit是禁用的。(非严格模式下nostrict) 两个order by就是MR中的二次排序; sort by,只能保证每个reduce是排序的,部分排序,使用是需要指定reduce个数 排序列必须出现在结果集中 distribute by,类似于分组, 阅读全文
posted @ 2020-05-19 16:26 疯狂摇头的青蛙 阅读(735) 评论(0) 推荐(0) 编辑
摘要: 扫描超时默认时1分钟,通过以下参数设置 <property> <name>hbase.client.scanner.timeout.period</name> <value>60000</value> <description>Client scanner lease period in milli 阅读全文
posted @ 2020-05-19 16:25 疯狂摇头的青蛙 阅读(1417) 评论(0) 推荐(0) 编辑
摘要: 创建表时可以指定保存的版本数,最小版本数和存活时间 $hbase>create 'ns1:t3',{NAME=>'f1',VERSIONS=>5} //1.指定时间片精确查询 $hbase>get ‘ns1:t3’,’row1’,{COLUMN=>’f1:name’,TIMESTAMP=>1234} 阅读全文
posted @ 2020-05-19 16:24 疯狂摇头的青蛙 阅读(992) 评论(0) 推荐(0) 编辑
摘要: kafka可以作为kafka的任意一个组件,source、channel、sink kafka(消息集群中间件,可重复消费,高吞吐量,暂存)和flume(落地,抓取源文件,监控目录,实时收集) kafka与flume的集成 1.kafka作为source,从kafka中取数据,source.type 阅读全文
posted @ 2020-05-19 16:23 疯狂摇头的青蛙 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 聚类模型也有很多评价方法用于分析模型性能,以及评估模型样本的拟合度。聚类的评估通常分为两部分:内部评估和外部评估。内部评估表示评估过程使用训练模型时使用的训练数据,外部评估则使用训练数据之外的数据。 1. 内部评价指标 通用的内部评价指标包括WCSS、Davies-Bouldin指数、Dunn指数和 阅读全文
posted @ 2020-05-19 16:21 疯狂摇头的青蛙 阅读(584) 评论(0) 推荐(0) 编辑
摘要: K-均值算法试图将一系列样本分割成K个不同的类簇(其中K是模型的输入参数) K-means K-means is one of the most commonly used clustering algorithms that clusters the data points into a pred 阅读全文
posted @ 2020-05-19 16:20 疯狂摇头的青蛙 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 一、聚类模型的简介 实际应用中,无监督的例子非常常见,原因是在许多真实场景中,标注数据的获取非常困难,代价非常大(比如,人工为分类模型标注训练数据)。但是,我们仍然想要从数据中学习基本的结构用来做预测。 在很多情况下,聚类模型等价于分类模型的无监督形式。用分类的方法,我们可以学习分类模型,预测给定训 阅读全文
posted @ 2020-05-19 16:17 疯狂摇头的青蛙 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 主题模型 主题模型可以从一系列文章中自动推测讨论的主题。这些主题可以被用作总结和整理文章,也可以在机器学习流程的后期阶段用于特征化和降维。 https://blog.csdn.net/qq_34531825/article/details/52608003 一、简介 LDA-隐含迪利克雷分配,lat 阅读全文
posted @ 2020-05-19 16:15 疯狂摇头的青蛙 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 1.MR的topN处理方案,假设所有输入Key都唯一 2.MR的topN处理方案,假设输入Key不唯一 3.spark的topN处理方案,假设所有输入Key都唯一,不使用top()和takeOrdered()函数 4.spark的topN处理方案,假设输入Key不唯一,不使用top()和takeOr 阅读全文
posted @ 2020-05-19 16:13 疯狂摇头的青蛙 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 经常一起购买的商品 scala> var file=sc.textFile("/user/ghj/togeterBought") file: org.apache.spark.rdd.RDD[String] = /user/ghj/togeterBought MapPartitionsRDD[28] 阅读全文
posted @ 2020-05-19 16:12 疯狂摇头的青蛙 阅读(177) 评论(0) 推荐(0) 编辑