随笔分类 - 大数据
摘要:问题背景 描述 某省系统界面需要展示业务指标,该指标来自一张表如下图所示,数据量巨大。旧方案的统计逻辑是:java cron定时任务执行sql汇总插入汇总表,汇总频率一小时一次。 在进行定时汇总的时候,由于需要统计历史所有数据,尽管sql已经优化避免全表扫描但是查询sql执行时间很久。 导致:界面长
阅读全文
摘要:1.背景环境 本文章来自最近做的项目模块的思考和总结,主要讲思路不涉及过多的基础和实现细节。 需求:统计出来纳税人名称、行业、近一年业务量(办税服务厅、电子税务局、自助渠道),近一年业务量top5(办税服务厅、电子税务局、自助渠道)、近一年纳税金额、近一年申报数、近一年用票数。支持根据所属税务机关分
阅读全文
摘要:1.core site.xml 2.pom.xml 3.测试代码 testDownloadFileToLocal 这里测试请注意,本地也要装hdfs才可以 "更多精彩请关注" 公众号【lovepythoncn】
阅读全文
摘要:一些介绍 Hadoop 2和Hadoop 3的端口区别 Hadoop 3 HDFS集群架构 我的集群规划 | name | ip | role | | | | | | 61 | 192.168.3.61 | namenode,datanode | | 62 | 192.168.3.62 | data
阅读全文
摘要:前言 年过30惶惶不安,又逢疫情,还是不断学习,强化自己的能力。hadoop的视频和书籍在15年的时候就看过,但是一直没动手实践过,要知道技术不经过实战,一点提升也没有。因此下定决心边学边做,希望能有所收获。 软件版本介绍 virtualbox 6.1 centos7 hadoop 3.2.1 jd
阅读全文