摘要: Prepare the data 数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening,一个信a用卡的数据,具体各项变量名以及变量名代表的含义不明(应该是出于保护隐私的目的),本文会用logi 阅读全文
posted @ 2017-03-08 17:45 xuechus 阅读(914) 评论(0) 推荐(0) 编辑
摘要: 1. 基本分析理论 C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。C4.5算 阅读全文
posted @ 2017-02-09 17:09 xuechus 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 就用Kmean聚类分析 km <- kmeans(dataname, k)第一步:对数据集进行初步统计分析 检查数据的维度> dim(iris)[1] 150 5显示数据集中的列名> names(iris)[1] "Sepal.Length" "Sepal.Width" "Petal.Length" 阅读全文
posted @ 2016-12-08 14:22 xuechus 阅读(306) 评论(0) 推荐(0) 编辑
摘要: shell算术运算 加法 注意! '4' '+' '5' 这三者之间要有空白 r=`expr 4 + 5` echo $r r=$[ 4 + 5 ] echo $r r=$(( 4 + 5 )) echo $r 乘法 r=`expr 4 \* 5` r=$(( 4 * 5 )) r=$[ 4 * 5 阅读全文
posted @ 2016-04-26 15:09 xuechus 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MyS... 阅读全文
posted @ 2014-10-27 14:20 xuechus 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博... 阅读全文
posted @ 2014-10-10 16:49 xuechus 阅读(1160) 评论(0) 推荐(1) 编辑
摘要: 今天发现一个很不错的博客(http://www.RDataMining.com),博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天开始 ...今天发现一个很不错的博客(http://www.RDataMi... 阅读全文
posted @ 2014-10-10 14:09 xuechus 阅读(1982) 评论(0) 推荐(1) 编辑
摘要: R语言多元分析系列之一:主成分分析主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成... 阅读全文
posted @ 2014-10-10 14:03 xuechus 阅读(1851) 评论(0) 推荐(0) 编辑