摘要: Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Sp 阅读全文
posted @ 2019-07-30 20:48 _XiongH 阅读(440) 评论(1) 推荐(0) 编辑
摘要: ETL的考虑 做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是导数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒 还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升 阅读全文
posted @ 2019-07-30 20:30 _XiongH 阅读(296) 评论(0) 推荐(1) 编辑