11 2012 档案
摘要:ps:由于篇幅问题,这篇博客主要介绍数据挖掘标准化流程中的project understanding问题,剩下的5个方面,特别是modeling等涉及具体算法的部分会在后续的博客中以结合orange和knime等开源软件或者是一些python小程序的形式写下去本文的一部分是翻译,有的部分是自己做数据挖掘项目时候的一些小的心得,也不见得正确,仅作抛砖引玉之用。如果需要相关的书籍电子版的也可以联系我flclain@gmail.com关于数据挖掘的标准化流程有大体有如下几种:SEMMA(sample,explore,modify,model,assessusedbySASInstituteInc)C
阅读全文
摘要:提到数据挖掘时,我们往往着重于建模时的算法而忽视其他步骤,而在realworld的数据挖掘项目中,其他步骤则是决定项目成败的关键。《guidetointelligentdataanalysis》这本书是knime官网推荐的书籍(http://tech.knime.org/guide-to-intelligent-data-analysis),按照CRISP-DM的流程讲述了数据挖掘流程的过程。我们先从什么是数据挖掘入手。要理解什么是数据挖掘,首先需要区分的是便是data和knowledge。我们对比data和knowledge的特征:DataKnowledge涉及到的是单个的实例(单个的事物,
阅读全文
摘要:简介: 最近大家十分关注美国大选,其中说的很火热的一点便是利用数据挖掘对于大选进行政治动员。刚好最近nature上有一篇名为A 61-million-person experiment in social influence and political mobilization文章就是讲的一个在上届美国大选时利用facebook上的实验数据对于政治动员和社交影响的分析。于是也学习了下。 本文主要分为两个部分,第一部分为对于这篇paper的在学习中的简要翻译和记录。第二部分为自己的一点简要心得。翻译和记录:A61-million-personexperimentinsocialinfluen..
阅读全文