【面试题】如何选择大数据组件？

问：公司有一个新的业务需要开展，现有的环境没有支持的大数据组件，那么要如何选择一个新的大数据组件呢？
比如：现在需要做一个实时屏展示，目前公司没有做实时数据流的项目，那么应该怎么去做技术选型呢？

第一：理解需求，搜索目前的商业公司是否有成功的案例实现，筛选有哪个可以选择的实现方案。
实时流，可以用 stom、spark streaming、flink等。
需求是秒级刷新还是需要更高的精度。

第二：公司现状，公司的环境里面有哪些组件，新加入的是否会有冲突
基本都是运行在Yarn上的插件，没什么影响。
新组件是否需要消耗很多的计算资源，是否会影响到线上的其他业务。

第三：看论文，组件的基因是否优秀。
比如：Doug Cutting 这样的奇才，看几篇论文就能设计出Hadoop、ElasticSearch这样的优秀分布式计算平台。
比如：谷歌、领英这样的有影响力的国际公司开源的组件。

第四：组件的技术架构是否先进。
比如：实时计算的批处理、微批处理、流式计算，技术架构一个比一个先进

第五：是否开源，社区是否活跃。
这以为着在使用过程中，如果碰到问题，能否很快从网上找到解决方案。

第六：看自身实力，或者团队实力。
这个开发组件的学习曲线是否太陡峭，团队是否有大牛，可以改源码的那种。

从这六个方面去考虑的话，会比较全面，避免日后踩坑。

posted @ 2020-08-26 23:11 水木青楓阅读(354) 评论(0) 收藏举报

刷新页面返回顶部

行勝於言