摘要: 聚类与分类的区别 分类 类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习。 聚类 事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。 关于监督学习和无监督学习,这里给一个简单的介绍 阅读全文
posted @ 2018-10-09 16:09 扎心了,老铁 阅读(7398) 评论(0) 推荐(1) 编辑
摘要: 简介 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。 Dat 阅读全文
posted @ 2018-10-09 14:08 扎心了,老铁 阅读(26511) 评论(6) 推荐(0) 编辑