摘要: 与分类不同,聚类是在没有给定分类的情况下,根据数据相似度进行分组的一种方法。聚类模型可以建立在无类标记的数据上,是一种非监督学习算法。聚类根据数据自身的距离或相似度划分为若干组,划分的原则是组内距离最小化,而组间距离最大化。如下图所示:常见的聚类算法如下:K-Means、K-中心点、系统聚类K-Means聚类算法K-Means算法是典型的基于距离的非层次聚类算法,在最下化误差函数的基础上将数据划分... 阅读全文
posted @ 2020-01-31 16:16 斜杠代码日记 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 本篇我们将使用Java语言来实现Flink的单词统计。代码开发环境准备导入Flink 1.9 pom依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId 阅读全文
posted @ 2020-01-31 12:46 斜杠代码日记 阅读(1681) 评论(0) 推荐(1) 编辑
摘要: 今天打开Oracle Java官网一看,Java已经更新到 13 了https://www.oracle.com/technetwork/java/javase/jdk-relnotes-index-2162236.html而我们仍然大多使用的是Java 7的一些语法。后续,我们将使用 Java 8 阅读全文
posted @ 2020-01-31 10:45 斜杠代码日记 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 拿电商行业举例,经常会遇到以下问题:如果基于商品的历史销售情况,以及节假日、气候、竞争对手等影响因素,对商品的销量进行趋势预测?如何预测未来一段时间哪些客户会流失,哪些客户可能会成为VIP用户?如果预测一种新商品的销售量,以及哪种类型的客户会比较喜欢?除此之外,运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯,管理人员希望了解下一个月的销售收入等,这些都是分类与预测的日志。分类和预测是预... 阅读全文
posted @ 2020-01-30 16:54 斜杠代码日记 阅读(1010) 评论(0) 推荐(0) 编辑
摘要: 决策树在分类、预测、规则提取等领域有着广泛的应用。决策树是一种树状结果,它的每一个叶节点对应一个分类。构造决策树的核心问题是:在每一步如何选择适当的属性对样本做拆分。对于分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。常见的决策树算法如下:ID3算法C4.5算法C 阅读全文
posted @ 2020-01-30 16:49 斜杠代码日记 阅读(912) 评论(0) 推荐(0) 编辑
摘要: 对数据质量进行简单的分析后,我们就可以开始来分析数据的特征分析了。数据的特征分析可以从以下几个方面开展:分布分析对比分析统计量分析周期性分析相关性分析通过以上5种方式,可以找到数据中存在的某种特征。分布分析分布分析很容易理解,就是理解数据的分布情况。例如:在0-100区间有多少数据、100-1000 阅读全文
posted @ 2020-01-30 11:25 斜杠代码日记 阅读(1306) 评论(0) 推荐(0) 编辑
摘要: 拿到样本数据集之后,我们在进行数据挖掘之前,需要对样本数据集进行一个初步的了解。我们想要知道,这个样本数据集中,是否存在某些明显的规律或者是趋势,是否存在某些异常的数据值。我们可以通过验证数据集的数据质量、以图形的方式展示数据,或者计算某些重要的特征值来了解数据集。整个了解数据集的过程就是探索数据的 阅读全文
posted @ 2020-01-29 18:09 斜杠代码日记 阅读(613) 评论(0) 推荐(0) 编辑
摘要: Python环境搭建本次入门系列将使用Python作为开发语言。要使用Python语言,我们先来搭建Python开发平台。我们将基于Python 2.7版本、以及Python的开发发行版本Anaconda版本来开发。Anaconda指的是一个开源的Python发行版本,其包含了conda、Pytho 阅读全文
posted @ 2020-01-29 16:43 斜杠代码日记 阅读(424) 评论(0) 推荐(0) 编辑
摘要: 伴随着信息化系统建设的发展,各行各业的中大型企业都存储了大量的业务数据。很多的企业想要通过对这些数据的分析,来发现新的商机以及从这些数据中找到提高盈利的方法。大部分的企业,都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统,能够自动地或者半自动地发现相关的知识和解决方案,这样将会有效地提高 阅读全文
posted @ 2020-01-29 12:40 斜杠代码日记 阅读(364) 评论(0) 推荐(0) 编辑