摘要:
最近在调用SparkR的时候,当用copy_to函数将R中的数据框导入到Spark时,会在默认的tempdir()目录下(这里默认目录即为/tmp)产生巨大的临时文件, 严重影响R脚本的运行,最终一番折腾,查找资料,终于搞定。解决办法如下: 验证下: ok,搞定! 阅读全文
摘要:
注:之前本人写了一篇SparkR的安装部署文章:SparkR安装部署及数据分析实例,当时SparkR项目还没正式入主Spark,需要自己下载SparkR安装包,但现在spark已经支持R接口,so更新了这篇文章。 1、Hadoop安装 参考: http://www.linuxidc.com/Linu 阅读全文
摘要:
Machine and statistical learning wizards are becoming more eager to perform analysis with Spark MLlibrary if this is only possible. It’s trendy, posh, 阅读全文
摘要:
As we demonstrated in “A gentle introduction to parallel computing in R” one of the great things about R is how easy it is to take advantage of parall 阅读全文
摘要:
深度学习在过去几年,由于卷积神经网络的特征提取能力让这个算法又火了一下,其实在很多年以前早就有所出现,但是由于深度学习的计算复杂度问题,一直没有被广泛应用。 一般的,卷积层的计算形式为: 其中、x分别表示当前卷积层中第j个特征、前一层的第i个特征;k表示当前层的第j个特征与前一层的第i个特征之间的卷 阅读全文
摘要:
日前,Rstudio公司发布了sparklyr包。该包具有以下几个功能: 实现R与Spark的连接—sparklyr包提供了一个完整的dplyr后端 筛选并聚合Spark数据集,接着在R中实现分析与可视化 利用Spark的MLlib机器学习库在R中实现分布式机器学习算法 可以创建一个扩展,用于调用S 阅读全文
摘要:
Feature selection is a process of extracting valuable features that have significant influence ondependent variable. This is still an active field of 阅读全文
摘要:
@theboysmithy did a great piece on coming up with an alternate view for a timeline for an FT piece. Here’s an excerpt (read the whole piece, though, i 阅读全文
摘要:
A couple of weeks or so ago, I picked up an inlink from an OCLC blog post about Visualizing Network Flows: Library Inter-lending. The post made use of 阅读全文
摘要:
上周在中国R语言大会北京会场上,给大家分享了如何利用R语言交互数据可视化。现场同学对这块内容颇有兴趣,故今天把一些常用的交互可视化的R包搬出来与大家分享。 rCharts包 说起R语言的交互包,第一个想到的应该就是rCharts包。该包直接在R中生成基于D3的Web界面。 rCharts包的安装 r 阅读全文