摘要: Hadoop Ecosystem解决方案---数据仓库个人总结的一套基于hadoop的海量数据挖掘的开源解决方案.BI系统:Pentahopentaho是开源的BI系统中做得算顶尖的了.提供的核心功能如下: 报表功能: 可视化(client, web)的报表设计. 分析功能: 可以生成分析视图,作数据作动态分析. Dashboard功能: 可以定制动态图表(image/flash)页面. 调度功能: 可对指定的任务进行crontab式调度. e.g.: 定期发送日/周/月报 工作流: 任意组合复杂的任务流程. ETL: 原生提供在各种数据库之间进行数据提取/转换/导入,可以自行扩展数据源. w 阅读全文
posted @ 2011-04-14 18:56 Angels-Wing 阅读(244) 评论(0) 推荐(0) 编辑
摘要: Map/Reduce功能很强大,只要设定合理Key、Value,我们经常碰到的算法大部分都可以实现。假如能把下面几个算法问题,用Map/Reduce方式实现,那么Map/Reduce编程可以说已经运用很纯熟了。 初级篇0. 实现Word Count中级篇1. Map/Reduce方式实现矩阵相乘2. Map/Reduce方式实现PageRank算法3. Map/Reduce方式实现TF/IDF4. Map/Reduce实现图最短路径5. Map/Reduce实现最小生成树算法 6. Map/Reduce实现Aprori算法7. Map/Reduce实现 Kmeans算法你能做出来几个?  阅读全文
posted @ 2011-04-14 18:55 Angels-Wing 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 深入了解Hadoophadoop的mapreduce的作业运行的时候 会在hdfs上缓存数据,因此hdfs的io很大程度上影响mapreduce的执行效率HDFS是一种 覆盖型文件系统, Overlay file System. 文件分块存储,复制冗余存储是它的两个很重要的策略。HDFS的读:生成 FSDataInputStream对象,HDFS会在内存中建立 如下对象链表: 阅读全文
posted @ 2011-04-14 16:54 Angels-Wing 阅读(128) 评论(0) 推荐(0) 编辑