2014年1月27日
摘要: 尽管Hadoop适合大多数批处理工作负载,而且在大数据时代成为企业的首选技术,但由于以下几个限制,它对一些工作负载并不是最优选择:缺少对迭代的支持需要将中间数据存在硬盘上以保持一致性,因此会有比较高的延迟当然,整个Hadoop生态系统是在不断演进的,包括Map/Reduce已经证明是处理大规模海量数据的理想方式。而HDFS、HBase等在过去几年中也有了长足的进步。在本文中,我们将深入了解一下过去一年中“红透半边天”的技术Spark,它与Hadoop架构类似,但是在许多方面都弥补了Hadoop的不足,比如在进行批处理时更加高效,并有更低的延迟。在大数据时代,Spark给我们带了新的选择,它的前 阅读全文
posted @ 2014-01-27 16:10 刀锋诚心 阅读(898) 评论(0) 推荐(0) 编辑
摘要: http://doc.akka.io/docs/akka/2.2.3/AkkaJava.pdf 阅读全文
posted @ 2014-01-27 13:25 刀锋诚心 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 即使 Java 6 和 Java 7 中引入并发性更新,Java 语言仍然无法让并行编程变得特别容易。Java 线程、synchronized代码块、wait/notify和java.util.concurrent包都拥有自己的位置,但面对多核系统的容量压力,Java 开发人员正在依靠其他语言中开创的技术。actor 模型就是这样一项技术,它已在 Erlang、Groovy 和 Scala 中实现。本文为那些希望体验 actor 但又要继续编写 Java 代码的开发人员带来了 μJavaActors 库。用于 JVM 的另外 3 个 actor 库请参阅 “表 1:对比 JVM actor 库 阅读全文
posted @ 2014-01-27 12:10 刀锋诚心 阅读(1066) 评论(0) 推荐(0) 编辑
摘要: http://blogimg.chinaunix.net/blog/upfile2/100222113336.pdfhttps://github.com/reactor/reactor/blob/master/reactor-core/src/main/java/reactor/event/Event.java 阅读全文
posted @ 2014-01-27 09:21 刀锋诚心 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层面。因此来说,数据挖掘融合了相当多的内容,试图全面了解所有的细节会花费很长的时间。因此我建议你的第一步是用大概三个月的时间了解数据挖掘的几个常用技术:分类、聚类、预测、关联分析、孤立点分析等等。这种了解是比较粗的,目标是明白这些技术是用来干什么的,典型的算法大致是怎样的,以及在什么情况下应该选用什么样的技术和算法。经过初步了解之后,就要进入选题的阶段,选择自 阅读全文
posted @ 2014-01-27 09:09 刀锋诚心 阅读(340) 评论(0) 推荐(0) 编辑