摘要: ###1.大数据架构 说明: 1.该大数据平台采用的阿里云服务器,所以在集群部署和运维上会减少很多工作量 2.主题的计算引擎采用Spark,部分有Flink 3.数据挖掘主要是应用python的一些挖掘框架,模型比如词袋模型和一些常见的nlp算法 4.任务调度是自研的诸葛大数据调度平台 阅读全文
posted @ 2020-05-28 11:26 技术即艺术 阅读(1307) 评论(0) 推荐(0) 编辑
摘要: ###1.数据治理系统架构 说明: 1.Flume采用的三个client实时监控三个服务器的磁盘路径,七个server提高负载均衡和拉取数据的能力,采用load_balance机制将数据Sink到kafka,其中source zip方式flume官方不支持,需要开发自定义source 2.对于历史数 阅读全文
posted @ 2020-05-28 10:40 技术即艺术 阅读(360) 评论(0) 推荐(0) 编辑