2019 年 7月 30 日随笔档案 - _XiongH

2019年7月30日

摘要： Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver 端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Sp 阅读全文

posted @ 2019-07-30 20:48 _XiongH 阅读(440) 评论(1) 推荐(0) 编辑

ETL工具总结

摘要： ETL的考虑做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是导数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升阅读全文

posted @ 2019-07-30 20:30 _XiongH 阅读(296) 评论(0) 推荐(1) 编辑

BigData

公告