随笔分类 -  R语言

摘要:(文末有赠书福利) 在数据挖掘项目中,经常会遇到的情况是有很多特征可以用,这是一件好事,但是有的时候数据中存在很多冗余情况,也就是说数据存在相关性或者共线性。在这种情况下对于分析带来了很多麻烦。不必要的特征太多会造成模型的过于复杂,共线性相关性会造成模型的不稳定,即数据微小的变化会造成模型结果很大的 阅读全文
posted @ 2020-10-22 16:44 MRO物料采购服务 阅读(2509) 评论(0) 推荐(0) 编辑
摘要:R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计 阅读全文
posted @ 2020-09-17 09:28 MRO物料采购服务 阅读(1171) 评论(0) 推荐(0) 编辑
摘要:先上代码案例: 主要的操作: library(parallel);#加载并行计算包 cl <- makeCluster(8);# 初始化cpu集群 clusterEvalQ(cl,library(RODBC));#添加并行计算中用到的包 clusterExport(cl,'variablename' 阅读全文
posted @ 2019-07-17 14:16 MRO物料采购服务 阅读(1519) 评论(0) 推荐(0) 编辑
摘要:已经大半年没有更新博客了。。最近都跑去写分析报告半年没有R这次记录下关于R循环(百万级以上)死慢死慢的问题,这个问题去年就碰到过,当时也尝试过多线程,but failed......昨天试了下,终于跑通了,而且过程还挺顺利step1先查下自己电脑几核的,n核貌似应该选跑n个线程,线程不是越多越好,线 阅读全文
posted @ 2019-07-16 09:50 MRO物料采购服务 阅读(1969) 评论(0) 推荐(0) 编辑
摘要:提升R语言运算效率的11个实用方法 众所周知,当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻 阅读全文
posted @ 2019-07-15 16:41 MRO物料采购服务 阅读(2595) 评论(0) 推荐(0) 编辑
摘要:数据库是极其重要的R语言数据导入源数据之地,读入包有sqldf、RODBC等。跟SQL server相连有RODBC,跟mySQL链接的有RMySQL。但是在R里面,回传文本会出现截断的情况,这一情况可把我弄得有点手足无措。一、数据库读入——RODBC包CRAN 里面的包 RODBC 提供了 ODB 阅读全文
posted @ 2019-07-03 10:58 MRO物料采购服务 阅读(2151) 评论(0) 推荐(0) 编辑
摘要:R语言︱情感分析—基于监督算法R语言实现笔记。 可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)对着看。 词典型情感分析大致有以下几个步骤: 训练数据集、neg/pos情感词典、分词+数据清洗清洗(一、二、三级清洗步骤)、计算情感得分、模型评价 ———————————— 阅读全文
posted @ 2018-04-29 22:36 MRO物料采购服务 阅读(2221) 评论(0) 推荐(1) 编辑
摘要:Part2分词处理 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】 在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很 阅读全文
posted @ 2018-04-29 22:28 MRO物料采购服务 阅读(445) 评论(0) 推荐(0) 编辑
摘要:现如今,R语言是统计领域广泛使用的工具,是属于GNU系统的一个自由、免费、源代码开放的软件,是用于统计计算和统计绘图的优秀工具。而RStudio是R的集成开发环境,用它进行R编程的学习和实践会更加轻松和方便。下面就教大家如何下载并安装R和RStudio,比较简单。R的维护工作由一个国际化的开发者团队 阅读全文
posted @ 2018-04-14 22:54 MRO物料采购服务 阅读(1541) 评论(0) 推荐(0) 编辑