20190722 对于大数据环境--意义

其实,要搭建一个Hadoop 生态圈并不难,在我理解难在根据实际需求去做出配置调整

传统的数据仓库,存在的意义就是为了更好的规范数据关系,为数据分析、数据挖掘提供服务

那么搭建一个空的Hadoop生态圈没有太多的意义,因为没有数据就没有价值,我不太喜欢外包的原因就是因为外包公司没有办法自主的对数据进行一些有效的处理。

ETL工程的意义也不是在于你会多少的ETL工具,而是如何有效的工程化数据抽取、数据转换、数据存储 。要解决的是同步问题、完整性问题、是否重复的问题,最怕的不过是遗漏数据(这里会涉及到高并发处理等)

Hadoop 环境能比传统环境更能提供的是它的高效运算、处理。

工程工程,就是要把一些思维结构工程化

并行高效的进行ETL过程。

posted @ 2019-07-22 15:51  soar.pang  阅读(107)  评论(0编辑  收藏  举报