摘要: 1.1 Spark是什么 Spark是一个用来实现快速而通用的集群计算的平台。Spark扩展了广泛使用的MapReduce平台计算模型,而且高效地支持更多模式,包括交互式查询和流处理。Spark的一个主要的特点就是能够在内存中进行计算。 1.2 一个大一统的软件栈 Spark的核心是一个对由很多计算 阅读全文
posted @ 2017-01-23 16:09 cyoutetsu 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 6.1 条形图 条形图是通过垂直的或水平的条形展示了类别型变量的分布。 函数barplot(height)是其中最简单的一个用法,height是一个向量或一个矩阵。使用选项horiz=TRUE则会生成一个水平的条形图。选项main可添加一个图形标题,xlab和ylab则会分别添加x轴和y轴标签。 如 阅读全文
posted @ 2016-10-10 12:38 cyoutetsu 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 5.1 数值和字符处理函数 常用的数学函数 统计函数 例子: 默认情况下,函数scale()对矩阵或数据框的指定列进行均值为0、标准差为1的标准化: 要对每一列进行任意均值和标准差的标准化,可以使用以下代码: 概率函数 概率函数通常用来生成特征已知的模拟数据,以及在用户编写的统计函数中计算概率值。 阅读全文
posted @ 2016-10-10 10:52 cyoutetsu 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 4.1 创建新变量 在典型的项目研究中,你可能需要创建新的变量或者对现有的变量进行变换。这可以通过以下语句来完成: 变量名←表达式 以上语句中的表达式部分可以分成包含多种运算符合函数。 例如,一个名为mydata的数据框,其中的变量为x1和x2,现在需要创建一个新的变量sumx存储以上两个变量的加和 阅读全文
posted @ 2016-10-09 21:59 cyoutetsu 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 3.1 使用图形 R是一个惊艳的图形构建平台。在通常的交互式会话中,你可以通过逐条输入语句构建图形,逐渐完善图形特征,直至得到想要的结果。 通过执行高级绘图命令来创建一幅新图形时,通常会覆盖掉先前的图形。 R将在保证用户输入最小化的前提下创建尽可能美观的图形。不过你依然可以使用图形参数来指定字体,颜 阅读全文
posted @ 2016-10-09 18:12 cyoutetsu 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 按照个人的要求来创建含有被研究信息的数据集,这是做任何数据分析的第一步,这个任务包括以下两步: 选择一种数据结构来存储数据; 将数据输入或者导入到这个数据结构中。 2.1 数据集的概念 数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。 R中有许多用于存储数据的结构,包括标量、向量、数组 阅读全文
posted @ 2016-10-09 11:54 cyoutetsu 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 1.1 R的使用 R是一种区分大小写的语言,R中有多种数据类型,包括向量、矩阵、数据框(与数据集类似)以及列表(各种对象的集合)。 R使用<-,而不是传统的=作为赋值符号。也可以使用->进行反方向赋值。 注释由#开头,在#后出现的热河文本都会被R解释器忽略。 想要大致了解R能做出何种图形,可以在命令 阅读全文
posted @ 2016-10-09 10:50 cyoutetsu 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 单层神经网络。加权的过程在这里进行的两次,取正负号的函数也进行了两次。 可以对每一个g到G的过程进行逻辑运算(and,or,not),数学表达如下: 虽然上面的算法很强大,但是还是有些东西算不出来,例如XOR: 但是如果再多加一层的话,就可以达到了: 这就是多层的神经网络。 每一个圆圈g都是一个no 阅读全文
posted @ 2016-10-08 19:09 cyoutetsu 阅读(219) 评论(0) 推荐(0) 编辑
摘要: AdaBoost D Tree有了新的权重的概念。 现在的优化目标,如何进行优化呢? 不更改算法的部门,而想办法在输入的数据方面做修改。 权重的意义就是被重复取到的数据的次数。这样的话,根据权重的比例进行重复的抽样。最后的结果也和之前一样能够表达权重的意义在里面了。 在一个fully grown t 阅读全文
posted @ 2016-10-08 16:53 cyoutetsu 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 随机森林是将bagging和decision tree结合在一起的算法。 random forest同样也继承了两个算法的优点,但是同时也解决了过拟合的缺点。 通过降维的方式来提高运算的速度。 每一个低维度的空间都可以看成是原feature的一个线性组合,由高维度向低维度的转换的过程是随机的,这样又 阅读全文
posted @ 2016-10-08 15:24 cyoutetsu 阅读(451) 评论(0) 推荐(0) 编辑