摘要: •1概念/类描述•2关联模式•3分类•4聚类分析•5预测•6时间序列•7偏差检测(1)概念/类 描述概念/类描述就是通过对某类对象关联数据的汇总,分析和比较,用汇总的简洁的精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为:特征性描述和区别性描述。特征性描述:是指从与某类对象相关的一组数据中提取出关于这些对象的共同特征。生成一个类的特征性描述只涉及该类对象中所有对象的同性。。区别性描述:描述两个或者更多不同类对象之间的差异。生成区别性描述则涉及目标类和对比类中对象的共性。数据特征的输出可以用多种形式提供:包括 饼图,条图,曲线,多维数据方和包括交叉表在内的多维表。结果描 阅读全文
posted @ 2012-07-30 23:52 honkcal 阅读(1286) 评论(0) 推荐(0) 编辑
摘要: 使用MapReduce来编写程序,有一个特定的流程,首先写map函数和reduce函数,最好使用单元测试来确保函数的运行符合预期。然后写一个驱动程序来运行作业,要看这个驱动程序是否可以运行,可以从本地IDE用一个晓得数据集来运行他,如果驱动程序不能正确运行,就用本地IDE调试器来找出问题根源。通过这些调试信息,可以加大单元测试使其覆盖这一测试用例,进而改进mapper或reducer。程序运行后,你可能想进行一些优化调整,首先执行一些标准检查,借此加快MapReduce程序的运行,然后再做一些任务剖析(task profiling),分布式程序的分析并不简单,Hadoop提供了钩子(hook) 阅读全文
posted @ 2012-07-30 00:45 honkcal 阅读(243) 评论(0) 推荐(0) 编辑