摘要: 前言如何从大量的事务的或关系的数据中发现关联规则?如何挖掘多层和多维空间中的关联规则?什么样的关联规则是最有趣的?如何帮助或指导挖掘过程发现有趣的关联或相关?如何利用用户选择的参数或约束加快挖掘过程?规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量.它们分别反映所... 阅读全文
posted @ 2015-08-24 17:54 yosg 阅读(291) 评论(0) 推荐(0) 编辑
摘要: wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.org或:wget -mkEpnp http://example.org--mirror – 递归下载给定网站下... 阅读全文
posted @ 2015-08-21 14:10 yosg 阅读(4030) 评论(2) 推荐(1) 编辑
摘要: 描述性数据汇总对于许多数据预处理,用户希望知道关于数据的中心趋势和离中趋势特征.中心趋势度量包括均值(mean),中位数(median),众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles),四分位数极差(interquartile range, IQR... 阅读全文
posted @ 2015-08-21 14:01 yosg 阅读(660) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘功能用于指定数据挖掘任务要找的模式类型.一般而言,数据挖掘任务可以分两类:描述和预测.描述性挖掘任务描述数据库中的数据的一般性质.预测性挖掘任务对当前数据进行推断,以做出预测.概念/类描述:特征化和区分数据特征化数据区分挖掘频繁模式,关联和相关关联分析.假设作为AllElectronics的... 阅读全文
posted @ 2015-08-20 18:09 yosg 阅读(867) 评论(0) 推荐(0) 编辑
摘要: sudo chmod 4711 `which dumpcap` 阅读全文
posted @ 2015-08-20 14:38 yosg 阅读(1692) 评论(0) 推荐(0) 编辑
摘要: 从数学上看,它是文本中不重复的单词的个数除以文本中所有单词个数得到的表达式,这是非常基本但是却很重要的度量方式。在人际交流中,词汇丰富性是 一个非 常有趣的概念,因为它为某个人或团体的词汇丰富性提供了定量的度量。例如,设想一下,你正在听某个人重复地说“and stuff”概括的描述信息而不是提供具体... 阅读全文
posted @ 2015-08-19 11:42 yosg 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 1. 数据清理 (消除噪声和不一致数据)2. 数据集成 (多种数据源可以组合在一起)3. 数据选择 (从数据库中提取与分析任务相关的数据)4. 数据变换 (数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5. 数据挖掘 (基本步骤,使用智能方法提取数据模式)6. 模式评估 (根据某种兴趣度度量... 阅读全文
posted @ 2015-08-19 11:41 yosg 阅读(1010) 评论(0) 推荐(0) 编辑