摘要:
dplyr包配合其他几个程序包(plyr,tidyr等等)几乎解决了日常数据整理中遇到的大部分问题,其还包括了连接几个开源数据库的函数,可用于远程数据库计算取数;也推出了data_frame和tbl_df等快速方便的数据存储对象;do语句使得在同一数据集中根据不同分组情况创建不同的模型更加方便。 阅读全文
摘要:
所使用的代码量少,效率更高,特别是在处理大至GB级别的数据时,它比dplyr以及python的pandas处理数据都要快;另一方面,快速地数据读取,快速地聚合排序,快速地分组运算,以及灵活自然的语法,使得data.table可以称之为加强版data.frame,因而适用于data.frame的函数也适用于data.table。 阅读全文
摘要:
机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。
从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。
决策树学习也是数据挖掘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。
决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。 阅读全文
摘要:
读完该ppt后,你将可以熟练运用r语言实现各种金融技术并且能够做出正确的金融决策。 该ppt旨在为那些需要学习使用r语言进行高级建模的量化金融领域人士而准备。如果你希望完美地跟金融量化投资分析节奏,需要在量化金融方面具备中级水平,并且需要准备r语言相关基础知识。 阅读全文