随笔档案「2012年11月」 - 懒惰啊我

CRISP-DM数据挖掘标准化流程简析[一] project understanding部分(guide to Intelligent data analysis学习笔记)

摘要：ps：由于篇幅问题，这篇博客主要介绍数据挖掘标准化流程中的project understanding问题，剩下的5个方面，特别是modeling等涉及具体算法的部分会在后续的博客中以结合orange和knime等开源软件或者是一些python小程序的形式写下去本文的一部分是翻译，有的部分是自己做数据挖掘项目时候的一些小的心得，也不见得正确，仅作抛砖引玉之用。如果需要相关的书籍电子版的也可以联系我flclain@gmail.com关于数据挖掘的标准化流程有大体有如下几种：SEMMA(sample,explore,modify,model,assessusedbySASInstituteInc）C 阅读全文

posted @ 2012-11-23 21:41 懒惰啊我阅读(4318) 评论(0) 推荐(1)

数据挖掘和统计学的区别（guide to Intelligent data analysis学习笔记）

摘要：提到数据挖掘时，我们往往着重于建模时的算法而忽视其他步骤，而在realworld的数据挖掘项目中，其他步骤则是决定项目成败的关键。《guidetointelligentdataanalysis》这本书是knime官网推荐的书籍（http://tech.knime.org/guide-to-intelligent-data-analysis），按照CRISP-DM的流程讲述了数据挖掘流程的过程。我们先从什么是数据挖掘入手。要理解什么是数据挖掘，首先需要区分的是便是data和knowledge。我们对比data和knowledge的特征：DataKnowledge涉及到的是单个的实例（单个的事物，阅读全文

posted @ 2012-11-23 17:44 懒惰啊我阅读(4250) 评论(6) 推荐(0)

摘要：简介：最近大家十分关注美国大选，其中说的很火热的一点便是利用数据挖掘对于大选进行政治动员。刚好最近nature上有一篇名为A 61-million-person experiment in social influence and political mobilization文章就是讲的一个在上届美国大选时利用facebook上的实验数据对于政治动员和社交影响的分析。于是也学习了下。本文主要分为两个部分，第一部分为对于这篇paper的在学习中的简要翻译和记录。第二部分为自己的一点简要心得。翻译和记录：A61-million-personexperimentinsocialinfluen.. 阅读全文

posted @ 2012-11-13 13:49 懒惰啊我阅读(1867) 评论(1) 推荐(2)

11 2012 档案

公告