09 2016 档案

R语言-混合型数据聚类

摘要：利用聚类分析，我们可以很容易地看清数据集中样本的分布情况。以往介绍聚类分析的文章中通常只介绍如何处理连续型变量，这些文字并没有过多地介绍如何处理混合型数据（如同时包含连续型变量、名义型变量和顺序型变量的数据）。本文将利用 Gower 距离、PAM（partitioning around medoid 阅读全文

posted @ 2016-09-09 12:05 payton数据之旅阅读(3994) 评论(1) 推荐(0) 编辑

R与并行计算（转）

摘要：文章摘要本文首先介绍了并行计算的基本概念，然后简要阐述了R和并行计算的关系。之后作者从R用户的使用角度讨论了隐式和显示两种并行计算模式，并给出了相应的案例。隐式并行计算模式不仅提供了简单清晰的使用方法，而且很好的隐藏了并行计算的实现细节。因此用户可以专注于问题本身。显示并行计算模式则更加灵活多样，阅读全文

posted @ 2016-09-09 09:33 payton数据之旅阅读(2339) 评论(0) 推荐(0) 编辑

解决R语言临时文件目录的问题（tempdir、tempfile）

摘要：最近在调用SparkR的时候，当用copy_to函数将R中的数据框导入到Spark时，会在默认的tempdir()目录下（这里默认目录即为/tmp）产生巨大的临时文件，严重影响R脚本的运行，最终一番折腾，查找资料，终于搞定。解决办法如下：验证下： ok，搞定！阅读全文

posted @ 2016-09-09 00:10 payton数据之旅阅读(6340) 评论(0) 推荐(0) 编辑

CentOS下SparkR安装部署：hadoop2.7.3+spark2.0.0+scale2.11.8+hive2.1.0

摘要：注：之前本人写了一篇SparkR的安装部署文章：SparkR安装部署及数据分析实例，当时SparkR项目还没正式入主Spark，需要自己下载SparkR安装包，但现在spark已经支持R接口，so更新了这篇文章。 1、Hadoop安装参考： http://www.linuxidc.com/Linu 阅读全文

posted @ 2016-09-05 18:45 payton数据之旅阅读(3337) 评论(0) 推荐(0) 编辑

公告

昵称： payton数据之旅
园龄： 10年1个月
粉丝： 30
关注： 6

+加关注

2025年2月

日

一

二

三

四

五

六

payton数据之旅

09 2016 档案

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

文章分类

文章档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论