摘要: 本文对应《R语言实战》第4章:基本数据管理;第5章:高级数据管理 创建新变量 算术运算符 + 加 - 减 * 乘 / 除 **或^ 求幂 x%%y 求余(x mod y)。5%%2的结果为1 x%/%y 整数除法。5%/%2的结果为2 重编码 < 小于 <= 小于或等于 > 大于 >= 大于或等于 阅读全文
posted @ 2016-12-24 21:19 gy_jerry 阅读(1735) 评论(0) 推荐(0) 编辑
摘要: 本文对应《R语言实战》前3章,因为里面大部分内容已经比较熟悉,所以在这里只是起一个索引的作用。 第1章 R语言介绍 获取帮助函数 help(), ? 查看函数帮助 example() 使用函数示例 vignette() 列出vignette文档 vignette(“svmdoc”) 打开对应文档 管 阅读全文
posted @ 2016-12-24 20:50 gy_jerry 阅读(2285) 评论(0) 推荐(0) 编辑
摘要: 第12章 模型比较 SVM(支持向量机)简介 非线性决策边界问题: 支持向量机(SVM, Support Vector Machine)是由Vapnik等人根据统计学习理论中的结构风险最小化的原则提出的。[2]支持向量机最初用于分类问题,是基于最大间隔准则得到的,通过求解一个二次凸规划问题得到一个极 阅读全文
posted @ 2016-11-03 21:33 gy_jerry 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 第11章 分析社交图谱 因为twitter的api方式改变了,因此按照书上的方法已经不能从twitter上获取到数据了,只能采用代码中附上的数据进行分析,而我安装的gephi无法打开图文件(.graphml)。因此本章仅讨论分析社交的思路,如果后面对web理解深入一点,再把调用api的部分补上。 “ 阅读全文
posted @ 2016-10-30 20:57 gy_jerry 阅读(712) 评论(0) 推荐(1) 编辑
摘要: 第10章 kNN:推荐系统 k近邻算法(k-Nearest Neighbors, kNN):思路是,要预测某个点是哪一类,就看离它最近的k个点是哪一类,根据少数服从多数的原则预测目标点的类别。 代码实现: 应用算法: 计算预测与实际不符的观测数与总观测数: 也就是说,准确率为93% 接下来用R语言中 阅读全文
posted @ 2016-10-23 21:02 gy_jerry 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 第9章 MDS:可视化地研究参议员相似性 基于相似性聚类:本章的主旨是,对不同的观测记录,如何理解用距离的概念来阐明它们之间的相似性和相异性。 多维定标技术(multidimensional scaling, MDS),目的是基于观察值之间的距离度量进行聚类。只通过所有点之间的距离度量对数据进行可视 阅读全文
posted @ 2016-10-23 16:49 gy_jerry 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 第8章 PCA:构建股票市场指数 有监督学习:发掘数据中的结构,并使用一个信号量评价我们在探索真实情况这项工作是否进行得很好。 无监督学习:发掘数据中的结构,但没有任何已知答案指导 主成分分析(Principle Components Analysis, PCA):根据每一列包含原始数据信息的多少, 阅读全文
posted @ 2016-10-22 10:52 gy_jerry 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 第7章 优化:密码破译 优化简介:最优点(optimum),优化(optimization) 本章研究的问题:构建一个简单的密码破译系统,把解密一串密文当做一个优化问题。 优化方法:网格搜索(grid search),主要问题是1、步长的选择;2、维度灾难(Curse of Dimensionali 阅读全文
posted @ 2016-10-21 21:48 gy_jerry 阅读(467) 评论(1) 推荐(0) 编辑
摘要: 目录 Cache数据库方法的RESTful封装 因为对web service的基础理论了解不多,所以本篇笔记仅讨论在一个已有框架中添加并封装新的表方法供前端调用,工程整体框架如果以后看懂了再补吧。 首先在Ensemble里找到名为CacheNetWizard的应用程序,该程序目的是产生一个.dll文 阅读全文
posted @ 2016-10-21 14:43 gy_jerry 阅读(1073) 评论(0) 推荐(0) 编辑
摘要: 目录 DeepSee的使用 数据、方法等的导入与导出 DeepSee的作用是对表格中的数据进行可视化数据挖掘。 主要过程是建立Cube(建立数据的关联,设置测量(measure)和分析维度(dimension)与表格中属性的关联方式), Pivot(建立分析方法,设置表格的行与列,以及测量值和过滤) 阅读全文
posted @ 2016-10-19 19:24 gy_jerry 阅读(1022) 评论(0) 推荐(0) 编辑