2017 年 4月随笔档案 - 天戈朱

R(7): data.table

摘要：这个包让你可以更快地完成数据集的数据处理工作。放弃选取行或列子集的传统方法，用这个包进行数据处理。用最少的代码，你可以做最多的事。相比使用data.frame，data.table可以帮助你减少运算时间。一个数据表格包含三部分，即DT[i, j, by]。你可以理解为我们告诉R用i来选出行的子集，并阅读全文

posted @ 2017-04-28 08:27 天戈朱阅读(323) 评论(0) 推荐(0) 编辑

R(8): tidyr

摘要：tidy（整洁），Tidyr包是由Hadely Wickham创建，这个包提高了整理原始数据的效率，tidyr包的4个常用的函数及其用途如下： gather()——它把多列放在一起，然后转化为key:value对。这个函数会把宽格式的数据转化为长格式。它是reshape包中melt函数的一个替代 s 阅读全文

posted @ 2017-04-28 08:27 天戈朱阅读(680) 评论(0) 推荐(0) 编辑

R(5): sql 数据处理

摘要：sqldf程序包是R语言中实用的数据管理辅助工具，但最新版本的包在处理中文时出现乱码，待解决 Usage: sqldf(x, stringsAsFactors = FALSE, row.names = FALSE...) row.names: 为True时，行名重命名不重新命名需安装sqldf 包阅读全文

posted @ 2017-04-27 08:47 天戈朱阅读(463) 评论(0) 推荐(0) 编辑

R(6): 数据处理包dplyr

摘要：dplyr包是Hadley Wickham的新作，主要用于数据清洗和整理，该包专注dataframe数据格式，从而大幅提高了数据处理速度，并且提供了与其它数据库的接口，本节学习dplyr包函数基本用法。dplyr()可使用%>%（链式操作），其功能是用于实现将一个函数的输出传递给下一个函数的第一个参阅读全文

posted @ 2017-04-27 08:47 天戈朱阅读(518) 评论(0) 推荐(0) 编辑

R(4) read/write

摘要：write.table() 数据导入导出最常用的方式是使用read.table()函数和write.table()处理CSV文件的导入导出，read.table()和write.table()可以处理包含行、列标签的数据框 Usage: write.table(x, file = "", appen 阅读全文

posted @ 2017-04-27 08:46 天戈朱阅读(529) 评论(0) 推荐(0) 编辑

R(2) sample

摘要：sample: 从整体中挑出部分样本数据函数 Usage： sample.int(n, size = n, replace = FALSE, prob = NULL) x：可以是R中任何对象 size: 指定在向量中抽取元素的个数 replace：默认是F，表示每次抽取后的数就不能在下一次被抽取阅读全文

posted @ 2017-04-24 08:53 天戈朱阅读(433) 评论(0) 推荐(0) 编辑

ML(3.2): NavieBayes R_kalR

摘要：ML3.1 介绍e1071包实施朴素贝叶斯分类的函数，本例使用klaR包中的NaiveBayes函数，因为该函数较之前者增加了两个功能，一个是可以输入先验概率，另一个是在正态分布基础上增加了核平滑密度函数。为了避免过度拟合，在训练时还要将数据分割进行多重检验，所以我们还使用了caret包的一些函数进阅读全文

posted @ 2017-04-19 08:53 天戈朱阅读(450) 评论(0) 推荐(0) 编辑

R(1):中文乱码解决方案

摘要：读取csv文件出现中文乱码方案，增加编码格式参数 read.csv(trainPath,header=TRUE,stringsAsFactors=TRUE,encoding = "UTF-8") 保存csv文件中出现乱码，编码格式参数 write.csv(outp, file = path, quo 阅读全文

posted @ 2017-04-18 07:52 天戈朱阅读(11808) 评论(1) 推荐(1) 编辑

ML(4.1): R C4.5

摘要：决策树模型中最为流行的是C4.5算法, 该类算法70年代末，J Ross Quinlan提出ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1993年，Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法，C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值阅读全文

posted @ 2017-04-17 21:26 天戈朱阅读(523) 评论(0) 推荐(0) 编辑

ML(4.3): R Random Forest

摘要：随机森林模型是一种数据挖掘模型，常用于进行分类预测。随机森林模型包含多个树形分类器，预测结果由多个分类器投票得出。决策树相当于一个大师，通过自己在数据集中学到的知识对于新的数据进行分类。俗话说得好，一个诸葛亮，玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠，希望最终的分类效果能够超过单个大师的一阅读全文

posted @ 2017-04-17 00:40 天戈朱阅读(8735) 评论(0) 推荐(0) 编辑

ML(5):KNN算法

摘要：K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K- 阅读全文

posted @ 2017-04-17 00:40 天戈朱阅读(1062) 评论(0) 推荐(0) 编辑

ML(4): 决策树分类

摘要：决策树（Decision Tree）是用于分类和预测的主要技术，它着眼于从一组无规则的事例推理出决策树表示形式的分类规则，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同属性判断从该节点向下分支，在决策树的叶节点得到结论。因此，从根节点到叶节点就对应着一条合理规则，整棵树就对应阅读全文

posted @ 2017-04-17 00:39 天戈朱阅读(1001) 评论(0) 推荐(0) 编辑

ML(4.2): R CART

摘要：CART模型：即Classification And Regression Trees。它和一般回归分析类似，是用来对变量进行解释和预测的工具，也是数据挖掘中的一种常用算法。如果因变量是连续数据，相对应的分析称为回归树，如果因变量是分类数据，则相应的分析称为分类树。决策树是一种倒立的树结构，它由内阅读全文

posted @ 2017-04-17 00:39 天戈朱阅读(883) 评论(0) 推荐(0) 编辑

ML(3.1): NavieBayes R_e1071

摘要：朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法, 具体见ML(3): 贝叶斯方法 R包 ① e1071::e1071 ② klaR::klaR 参考资料：https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classificati 阅读全文

posted @ 2017-04-10 22:17 天戈朱阅读(1137) 评论(0) 推荐(0) 编辑

package(1):tm

摘要：tm包是R语言中为文本挖掘提供综合性处理的package，进行操作前载入tm包，vignette命令可以让你得到相关的文档说明。使用默认安装的R平台是不带tm package的，在安装的过程中，它会依赖于NLP’，‘BH’ ，‘slam’包，所以最简单的方式就是采用在线安装。在tm 中主要的管理文阅读全文

posted @ 2017-04-09 12:06 天戈朱阅读(1509) 评论(0) 推荐(0) 编辑

ML(3): 贝叶斯方法

摘要：对于分类问题，我们每个人每天都在执行分类操作，只是我们没有意识到罢了。例如，当你看到一个陌生人，你的脑子下意识判断TA是男是女；你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话，其实这就是一种分类操作。为更好理解Bayes原理，转载参考下面的文章： ① http:// 阅读全文

posted @ 2017-04-08 23:21 天戈朱阅读(622) 评论(0) 推荐(1) 编辑

ML(2): 术语及算法分类汇总

摘要：机器学习术语归纳总结机器学习相关的基本术语，以一批西瓜的数据为例，例如：（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆）。。。示例（instance）/样本（sample）：对于某个事件或对象的描述（上例中的一个西瓜）数据集阅读全文

posted @ 2017-04-08 23:20 天戈朱阅读(399) 评论(0) 推荐(0) 编辑

天戈朱

公告

最新随笔

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

04 2017 档案