大数据 - 随笔分类 - 朱季谦

Hive SQL实现近N周的数据统计查询

摘要：文/朱季谦先前遇到过一个需求，需要基于HIVE统计近N周范围的数据，例如，统计近7周范围的数据指标。需要用HIVE SQL去实现该功能，而HIVE SQL并没有PostgreSQL那样例如通过函数to_char((to_date('202550', 'YYYWW') - INTERVAL '5 阅读全文

posted @ 2025-03-30 17:49 朱季谦阅读(233) 评论(0) 推荐(0)

基于Spark对消费者行为数据进行数据分析开发案例

摘要：原创/朱季谦本文适合入门Spark RDD的计算处理。在日常工作当中，经常遇到基于Spark去读取存储在HDFS中的批量文件数据进行统计分析的案例，这些文件一般以csv或者txt文件格式存在。例如，存在这样一份消费者行为数据，字段包括消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支阅读全文

posted @ 2023-11-10 15:54 朱季谦阅读(709) 评论(0) 推荐(0)

图解Spark排序算子sortBy的核心源码

摘要：原创/朱季谦一、案例说明以前刚开始学习Spark的时候，在练习排序算子sortBy的时候，曾发现一个有趣的现象是，在使用排序算子sortBy后直接打印的话，发现打印的结果是乱序的，并没有出现完整排序。例如，有一个包含多个（姓名，金额）结构的List数据，将这些数据按照金额降序排序时，代码及打印阅读全文

posted @ 2023-09-18 22:38 朱季谦阅读(464) 评论(2) 推荐(0)

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

摘要：原创/朱季谦第一次写这么长的graphx源码解读，还是比较晦涩，有较多不足之处，争取改进。按照官网的介绍，NebulaGraph Algorithm是一款基于GraphX 的 Spark 应用程序，通过提交 Spark 任务的形式，使用完整的算法工具对 NebulaGraph 数据库中的数据执行阅读全文

posted @ 2023-09-03 17:10 朱季谦阅读(561) 评论(0) 推荐(0)

图解Spark Graphx实现顶点关联邻接顶点的collectNeighbors函数原理

摘要：一、场景案例在一张社区网络里，可能需要查询出各个顶点邻接关联的顶点集合，类似查询某个人关系比较近的都有哪些人的场景。在用Spark graphx中，通过函数collectNeighbors便可以获取到源顶点邻接顶点的数据。下面以一个例子来说明，首先，先基于顶点集和边来创建一个Graph图。该阅读全文

posted @ 2023-09-01 00:56 朱季谦阅读(344) 评论(0) 推荐(1)

Spark RDD惰性计算的自主优化

摘要：原创/朱季谦 RDD（弹性分布式数据集）中的数据就如final定义一般，只可读而无法修改，若要对RDD进行转换或操作，那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的，在RDD转换阶段，只会记录该转换逻辑而不会执行，只有在遇到行动算子时，才会触发真正的运阅读全文

posted @ 2023-08-22 21:20 朱季谦阅读(341) 评论(0) 推荐(1)

Spark大数据集群日常开发过程遇到的异常及解决思路汇总

摘要：总结/朱季谦一、出现java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.()V from class org.apache.hadoop.hbase.zookeeper.Meta 阅读全文

posted @ 2023-07-13 10:38 朱季谦阅读(319) 评论(0) 推荐(0)

图数据库HugeGraph：HugeGraph-Hubble基于Web的可视化图管理初体验

摘要：原创/朱季谦一、HugeGraph-Hubble简介关于HugeGraph，官方资料是这样介绍的，它是一款易用、高效、通用的开源图数据库系统（Graph Database），实现了 Apache TinkerPop3 框架及完全兼容 Gremlin 查询语言，具备完善的工具链组件，助力用户轻阅读全文

posted @ 2021-12-16 21:14 朱季谦阅读(2163) 评论(0) 推荐(0)

Hadoop学习笔记：运行wordcount对文件字符串进行统计案例

摘要：文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境，简单模拟了线上上的hadoop真实分布式集群，主要用于业余学习大数据相关体系。其中，一台服务器作为NameNode，一台作为Secondary NameNode，剩下两台当做DataNodes节点服务器，类似下面这样一个阅读全文

posted @ 2021-10-20 13:05 朱季谦阅读(371) 评论(0) 推荐(0)

linux环境安装可操作图库语言Gremlin的图框架HugeGraph

摘要：原创/朱季谦若你还没接触过图数据库，可能看到这个概念时，会比较蒙蔽。图是什么？图数据库又是什么？首先，在数据结构中，图是一种由顶点（vertex）集合及顶点间关系集合组成的一种非线性数据结构。而图数据库，则是以图这种具有点边结构来增、删、改、查之类操作的NoSQL数据库，它特别擅长处理大数据阅读全文

posted @ 2020-03-22 18:53 朱季谦阅读(2447) 评论(0) 推荐(0)

朱季谦

腾讯云社区2022年度最佳作者、阿里云专家博主认证

朱季谦

随笔分类 - 大数据

公告