★P〓P★的随笔

纸上得来终觉浅,绝知此事要躬行。

2008年8月3日

WEKA rebuild

摘要: weka源码编译步骤 阅读全文

posted @ 2008-08-03 02:09 itolssy 阅读(663) 评论(0) 推荐(0) 编辑

读书笔记《A Categorization Scheme for Semantic Web Search Engines》

摘要: 关于语义搜索引擎应该做什么,有一些不同的观点。本文中,介绍并详细阐述了一个语义垂直搜索引擎的分类方案。对每一类,根据所推荐的一般架构描述其组件,讨论了这些组件的各种使用途径。我们也建议了一些因子用于评估每一类系统。 阅读全文

posted @ 2008-08-03 02:03 itolssy 阅读(912) 评论(1) 推荐(0) 编辑

读书笔记 PMML (Predictive Model Markup Language)

摘要: PMML全称预言模型标记模型(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。PMML是一种基于XML的语言,用来定义预言模型。它为各个公司定义预言模型和在不同的应用程序之间共享模型提供了一种快速并且简单的方式。通过使用标准的XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型,模型详细的格式... 阅读全文

posted @ 2008-08-03 01:51 itolssy 阅读(694) 评论(0) 推荐(0) 编辑

2008年8月2日

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.3 数据清理

摘要: 现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。 阅读全文

posted @ 2008-08-02 19:04 itolssy 阅读(1039) 评论(0) 推荐(0) 编辑

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.2 描述性数据汇总

摘要: 对于许多数据预处理任务,用户希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)、中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。 阅读全文

posted @ 2008-08-02 19:03 itolssy 阅读(1882) 评论(0) 推荐(0) 编辑

导航