11 2015 档案

摘要:聚类算法一览 聚类算法是数据挖掘领域三类基本算法之一,另外两种算法是分类算法和协同过滤算法。按照机器学习领域的分类标准,聚类算法属于一种无监督的学习算法,分类算法是一种有监督的学习算法。因为分类算法的输入数据对象是有标签的,标签表示了数据对象的所属的类别,而聚类算法的输入数据没有标签,聚类算法的目... 阅读全文
posted @ 2015-11-26 09:16 libs5510 阅读(353) 评论(0) 推荐(0)
摘要:一:服务器概况 服务器是联想旗下ThinkServer品牌TD340型号服务器,服务器标配32G内存,1T硬盘。其中服务器使用RAID(磁盘阵列)技术,拥有一个RAID卡,服务器标配一个大小为1T的磁盘,可以通过插入更多磁盘的方式来扩展服务器容量。此时需要使用RAID卡来管理多磁盘的情况,即使只有... 阅读全文
posted @ 2015-11-20 22:34 libs5510 阅读(3961) 评论(0) 推荐(0)
摘要:Hadoop有一个抽象文件系统的概念,hdfs只是其中的一个实现,Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop中的一个文件系统接口,hdfs是实现了这个接口的一个文件系统,还有其它的文件系统实现,例如使用了本地磁盘文件系统的Local文件系统和R... 阅读全文
posted @ 2015-11-16 22:18 libs5510 阅读(1114) 评论(0) 推荐(0)
摘要:Hadoop文件系统简介Hadoop家族中,最重要的两部分内容就是MapReduce和HDFS,其中MapReduce是一种编程范型,这种范型比较适合用来在分布式环境下进行批处理计算。另一部分就是HDFS,即hadoop分布式文件系统。Hadoop环境下可以兼容多种文件系统,包括本地文件系统,体现在... 阅读全文
posted @ 2015-11-06 09:59 libs5510 阅读(355) 评论(0) 推荐(0)