摘要: K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 阅读全文
posted @ 2015-12-18 16:27 ShangFR 阅读(4748) 评论(10) 推荐(3) 编辑
摘要: Stuttgart Neural Network Simulator是德国斯图加特大学开发的优秀神经网络仿真软件,为国外的神经网络研究者所广泛采用。本文旨在通过**使用R语言RSNNS包**中mlp函数(多层感知器)对[蘑菇数据](http://pan.baidu.com/s/1jGWDflO)建立预测模型,演示斯图加特神经网络模拟器的强大功能。RSNNS包中其它重要的网络形式还包括:dlvq(动态学习向量化网络)、rbf(径向基函数网络)、elman(elman神经网络)、 jordan(jordan神经网络)、som(自组织映射神经网络)、art1(适应性共振神经网络)等等。 阅读全文
posted @ 2015-12-17 20:03 ShangFR 阅读(7950) 评论(1) 推荐(1) 编辑
摘要: **人口特性分析**是人群行为分析的一种,它提供一种更细致的分析方法,将整体数据按不同的属性划分,分成组群(Cohort,有共性的一组用户),然后根据这些“组群”的历史表现,预测未来能带来的效益,以及评估产品促销推广的实际效果。比如,我们可以按照渠道、性别、收入、购买力等来划分组群。人口特性分析是时下互联网行业的新宠,当市场不再为虚假繁荣的交易数据买账时,我们必须提供新的“有效数据”(客户保持率)来说服市场。移动互联时代,人口特性分析在电商交易平台等互联网+领域用来分析用户留存情况和用户粘性,并通过对现状的评估,及时对未来情况做出合理预测。 阅读全文
posted @ 2015-12-12 23:16 ShangFR 阅读(1510) 评论(0) 推荐(0) 编辑
摘要: 偶然间在网上看到了[法国数据公开平台](https://www.data.gouv.fr/en),里面有各种各样的数据,其中就包括交通事故数据集,里面记载了每起交通事故的时间、地点和碰撞信息等。或许,每位司机一生中都难免经历几次行车中与其他机动车发生碰撞的事件,作为一位刚刚考取机动(ma)车(lu)驾(sha)驶(shou)证的人,我决定严肃认真仔细地研究下交通事故中车辆碰撞位置间的关联关系。So,顺便利用下法国的交通事故数据(想用国产的,可惜找不到)。 阅读全文
posted @ 2015-12-04 00:33 ShangFR 阅读(702) 评论(0) 推荐(0) 编辑
摘要: 统计学到底是什么---统计学的七大支柱 阅读全文
posted @ 2015-12-03 17:19 ShangFR 阅读(2113) 评论(0) 推荐(1) 编辑