随笔 - 368, 文章 - 0, 评论 - 56, 阅读 - 94万
  博客园  :: 首页  :: 联系 :: 管理

04 2017 档案

摘要:这个包让你可以更快地完成数据集的数据处理工作。放弃选取行或列子集的传统方法,用这个包进行数据处理。用最少的代码,你可以做最多的事。相比使用data.frame,data.table可以帮助你减少运算时间。一个数据表格包含三部分,即DT[i, j, by]。你可以理解为我们告诉R用i来选出行的子集,并 阅读全文

posted @ 2017-04-28 08:27 天戈朱 阅读(323) 评论(0) 推荐(0) 编辑

摘要:tidy(整洁),Tidyr包是由Hadely Wickham创建,这个包提高了整理原始数据的效率,tidyr包的4个常用的函数及其用途如下: gather()——它把多列放在一起,然后转化为key:value对。这个函数会把宽格式的数据转化为长格式。它是reshape包中melt函数的一个替代 s 阅读全文

posted @ 2017-04-28 08:27 天戈朱 阅读(679) 评论(0) 推荐(0) 编辑

摘要:sqldf程序包是R语言中实用的数据管理辅助工具,但最新版本的包在处理中文时出现乱码,待解决 Usage: sqldf(x, stringsAsFactors = FALSE, row.names = FALSE...) row.names: 为True时,行名重命名不重新命名 需安装sqldf 包 阅读全文

posted @ 2017-04-27 08:47 天戈朱 阅读(463) 评论(0) 推荐(0) 编辑

摘要:dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法。dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参 阅读全文

posted @ 2017-04-27 08:47 天戈朱 阅读(515) 评论(0) 推荐(0) 编辑

摘要:write.table() 数据导入导出最常用的方式是使用read.table()函数和write.table()处理CSV文件的导入导出,read.table()和write.table()可以处理包含行、列标签的数据框 Usage: write.table(x, file = "", appen 阅读全文

posted @ 2017-04-27 08:46 天戈朱 阅读(529) 评论(0) 推荐(0) 编辑

摘要:sample: 从整体中挑出部分样本数据函数 Usage: sample.int(n, size = n, replace = FALSE, prob = NULL) x:可以是R中任何​对象 size: 指定在向量中抽取元素的个数 replace:默认是F,表示每次​抽取后的数就不能在下一次被抽取 阅读全文

posted @ 2017-04-24 08:53 天戈朱 阅读(433) 评论(0) 推荐(0) 编辑

摘要:ML3.1 介绍e1071包实施朴素贝叶斯分类的函数,本例使用klaR包中的NaiveBayes函数,因为该函数较之前者增加了两个功能,一个是可以输入先验概率,另一个是在正态分布基础上增加了核平滑密度函数。为了避免过度拟合,在训练时还要将数据分割进行多重检验,所以我们还使用了caret包的一些函数进 阅读全文

posted @ 2017-04-19 08:53 天戈朱 阅读(450) 评论(0) 推荐(0) 编辑

摘要:读取csv文件出现中文乱码方案,增加编码格式参数 read.csv(trainPath,header=TRUE,stringsAsFactors=TRUE,encoding = "UTF-8") 保存csv文件中出现乱码,编码格式参数 write.csv(outp, file = path, quo 阅读全文

posted @ 2017-04-18 07:52 天戈朱 阅读(11807) 评论(1) 推荐(1) 编辑

摘要:决策树模型中最为流行的是C4.5算法, 该类算法70年代末,J Ross Quinlan提出ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值 阅读全文

posted @ 2017-04-17 21:26 天戈朱 阅读(522) 评论(0) 推荐(0) 编辑

摘要:随机森林模型是一种数据挖掘模型,常用于进行分类预测。随机森林模型包含多个树形分类器,预测结果由多个分类器投票得出。 决策树相当于一个大师,通过自己在数据集中学到的知识对于新的数据进行分类。俗话说得好,一个诸葛亮,玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠,希望最终的分类效果能够超过单个大师的一 阅读全文

posted @ 2017-04-17 00:40 天戈朱 阅读(8733) 评论(0) 推荐(0) 编辑

摘要:K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K- 阅读全文

posted @ 2017-04-17 00:40 天戈朱 阅读(1062) 评论(0) 推荐(0) 编辑

摘要:决策树(Decision Tree)是用于分类和预测的主要技术,它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下分支,在决策树的叶节点得到结论。因此,从根节点到叶节点就对应着一条合理规则,整棵树就对应 阅读全文

posted @ 2017-04-17 00:39 天戈朱 阅读(1001) 评论(0) 推荐(0) 编辑

摘要:CART模型 :即Classification And Regression Trees。它和一般回归分析类似,是用来对变量进行解释和预测的工具,也是数据挖掘中的一种常用算法。如果因变量是连续数据,相对应的分析称为回归树,如果因变量是分类数据,则相应的分析称为分类树。决策树是一种倒立的树结构,它由内 阅读全文

posted @ 2017-04-17 00:39 天戈朱 阅读(883) 评论(0) 推荐(0) 编辑

摘要:朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法, 具体见ML(3): 贝叶斯方法 R包 ① e1071::e1071 ② klaR::klaR 参考资料:https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classificati 阅读全文

posted @ 2017-04-10 22:17 天戈朱 阅读(1137) 评论(0) 推荐(0) 编辑

摘要:tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明。使用默认安装的R平台是不带tm package的,在安装的过程中,它会依赖于NLP’,‘BH’ ,‘slam’包,所以最简单的方式就是采用在线安装。 在tm 中主要的管理文 阅读全文

posted @ 2017-04-09 12:06 天戈朱 阅读(1508) 评论(0) 推荐(0) 编辑

摘要:对于分类问题,我们每个人每天都在执行分类操作,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。为更好理解Bayes原理,转载参考下面的文章: ① http:// 阅读全文

posted @ 2017-04-08 23:21 天戈朱 阅读(620) 评论(0) 推荐(1) 编辑

摘要:机器学习术语 归纳总结机器学习相关的基本术语,以一批西瓜的数据为例,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆)。。。 示例(instance)/样本(sample):对于某个事件或对象的描述(上例中的一个西瓜) 数据集 阅读全文

posted @ 2017-04-08 23:20 天戈朱 阅读(399) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示