摘要: 在污染的数量已知的情况下,下面的例子介绍了执行野点和异常检测的两种不同方式:基于协方差的稳健估计,假设数据是高斯分布的,那么在这样的案例中执行效果将优于One-Class SVM;利用One-Class SVM,它有能力捕获数据集的形状,因此对于强非高斯数据有更加优秀的效果,例如两个截然分开的数据集... 阅读全文
posted @ 2014-07-07 01:17 Lmaomao 阅读(4884) 评论(0) 推荐(0) 编辑
摘要: 写这篇随笔的原因是对博客http://blog.csdn.net/liming0931/article/details/7766861一文中的源码改进: 1 int getfn_1(const int n) 2 { 3 int counter=0; //the counter! 4 ... 阅读全文
posted @ 2014-07-04 21:12 Lmaomao 阅读(831) 评论(2) 推荐(0) 编辑
摘要: 数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。标准化... 阅读全文
posted @ 2014-06-30 00:31 Lmaomao 阅读(1950) 评论(0) 推荐(0) 编辑
摘要: 一般使用weka进行数据挖掘的时候会碰到两个问题,一是内存不够,二是libsvm使用不了,这时就需要重新配置RunWeka.ini文件,解决上述问题。查看RunWeka.ini原文如下: 1 # Contains the commands for running Weka either with a... 阅读全文
posted @ 2014-06-29 12:50 Lmaomao 阅读(2560) 评论(0) 推荐(0) 编辑
摘要: 1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而wek... 阅读全文
posted @ 2014-06-27 20:58 Lmaomao 阅读(899) 评论(0) 推荐(0) 编辑
摘要: Perl中读取文件最后一行的方法很多,比如(1)将文件读入数组,取最后一个元素open (FILE,"file.txt") or die "$!";my @arr=;;close FILE;my $last=$arr[$#arr];#$last里就是最后一行的内容了。(2)一行一行读入,到最后一行时... 阅读全文
posted @ 2014-06-25 00:33 Lmaomao 阅读(2041) 评论(0) 推荐(0) 编辑
摘要: 神经网络是由大量处理单元(神经元)互相连接而成的网络,实际上ANN并不完全模拟了生物的神经系统,而是一种抽象、简化和模拟。神经网络的信息处理通过神经元的相互作用来实现,知识与信息的存贮表现在网络元件互连的分布式结构与联系,神经网络的学习和识别各神经元连接权系数的动态演化过程。实践中常用的基本神经... 阅读全文
posted @ 2014-06-24 00:21 Lmaomao 阅读(1023) 评论(0) 推荐(0) 编辑
摘要: 摘要:scikit-learn是一个用于机器学习的Python模块,其具有操作简单、效率高、无访问限制、BSD开源协议等等特征,在机器学习这一块是比较受欢迎的。scikit-learn是一个用于机器学习的 Python 模块,建立在SciPy基础之上,获得3-Clause BSD 开源许可证。这个项... 阅读全文
posted @ 2014-07-06 22:14 Lmaomao 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 回归回归是最为简单易用的一种技术,但可能也是最不强大(这二者总是相伴而来,很有趣吧)。此模型可以简单到只有一个输入变量和一个输出变量(在 Excel 中称为 Scatter 图形,或 OpenOffice.org 内的 XYDiagram)。当然,也可以远比此复杂,可以包括很多输入变量。实际上,所有... 阅读全文
posted @ 2014-06-27 21:07 Lmaomao 阅读(6310) 评论(0) 推荐(0) 编辑
摘要: 1.1 数据挖掘的定义Data mining is the process of seeking interesting or valuable information in large database. 数据挖掘(datamining)是近年来数据库应用领域中相当热门的话题。数据挖掘一般是指在... 阅读全文
posted @ 2014-06-25 21:38 Lmaomao 阅读(275) 评论(0) 推荐(0) 编辑