09 2016 档案

摘要:利用聚类分析,我们可以很容易地看清数据集中样本的分布情况。以往介绍聚类分析的文章中通常只介绍如何处理连续型变量,这些文字并没有过多地介绍如何处理混合型数据(如同时包含连续型变量、名义型变量和顺序型变量的数据)。本文将利用 Gower 距离、PAM(partitioning around medoid 阅读全文
posted @ 2016-09-09 12:05 payton数据之旅 阅读(3994) 评论(1) 推荐(0) 编辑
摘要:文章摘要 本文首先介绍了并行计算的基本概念,然后简要阐述了R和并行计算的关系。之后作者从R用户的使用角度讨论了隐式和显示两种并行计算模式,并给出了相应的案例。隐式并行计算模式不仅提供了简单清晰的使用方法,而且很好的隐藏了并行计算的实现细节。因此用户可以专注于问题本身。显示并行计算模式则更加灵活多样, 阅读全文
posted @ 2016-09-09 09:33 payton数据之旅 阅读(2339) 评论(0) 推荐(0) 编辑
摘要:最近在调用SparkR的时候,当用copy_to函数将R中的数据框导入到Spark时,会在默认的tempdir()目录下(这里默认目录即为/tmp)产生巨大的临时文件, 严重影响R脚本的运行,最终一番折腾,查找资料,终于搞定。解决办法如下: 验证下: ok,搞定! 阅读全文
posted @ 2016-09-09 00:10 payton数据之旅 阅读(6340) 评论(0) 推荐(0) 编辑
摘要:注:之前本人写了一篇SparkR的安装部署文章:SparkR安装部署及数据分析实例,当时SparkR项目还没正式入主Spark,需要自己下载SparkR安装包,但现在spark已经支持R接口,so更新了这篇文章。 1、Hadoop安装 参考: http://www.linuxidc.com/Linu 阅读全文
posted @ 2016-09-05 18:45 payton数据之旅 阅读(3337) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示