摘要: 从数学上看,它是文本中不重复的单词的个数除以文本中所有单词个数得到的表达式,这是非常基本但是却很重要的度量方式。在人际交流中,词汇丰富性是 一个非 常有趣的概念,因为它为某个人或团体的词汇丰富性提供了定量的度量。例如,设想一下,你正在听某个人重复地说“and stuff”概括的描述信息而不是提供具体... 阅读全文
posted @ 2015-08-19 11:42 yosg 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 1. 数据清理 (消除噪声和不一致数据)2. 数据集成 (多种数据源可以组合在一起)3. 数据选择 (从数据库中提取与分析任务相关的数据)4. 数据变换 (数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5. 数据挖掘 (基本步骤,使用智能方法提取数据模式)6. 模式评估 (根据某种兴趣度度量... 阅读全文
posted @ 2015-08-19 11:41 yosg 阅读(1010) 评论(0) 推荐(0) 编辑