WHYBIGDATA
WHYBIGDATA的博客
摘要: HBase查询一张表的数据条数的方法 文章目录 HBase查询一张表的数据条数的方法0、写在前面1、HBase-Shell的count命令2、Scan操作获取数据条数3、执行Mapreduce任务4、Hive与HBase整合5、协处理器Coprocessor实现6、参考资料 0、写在前面 Linux 阅读全文
posted @ 2022-11-26 05:30 WHYBIGDATA 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 线性时间选择(Top K)问题(Java) 文章目录 线性时间选择(Top K)问题(Java)1、前置介绍2、分治法求解3、代码实现4、复杂度分析5、扩展6、参考资料 1、前置介绍 定义 选择问题(select problem)是指在n个元素的集合中,选出某个元素值大小在集合中处于第k位的元素, 阅读全文
posted @ 2022-11-25 05:30 WHYBIGDATA 阅读(52) 评论(0) 推荐(0) 编辑
摘要: Strassen矩阵乘法问题(Java) 文章目录 Strassen矩阵乘法问题(Java)1、前置介绍3、代码实现4、复杂度分析5、参考资料 1、前置介绍 矩阵乘法是线性代数中最常见的问题之一 ,它在数值计算中有广泛的应用。 设A和B是2个nXn矩阵, 它们的乘积AB同样是一个nXn矩阵。 A和B 阅读全文
posted @ 2022-11-24 05:30 WHYBIGDATA 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 最优二叉搜索树问题(Java) 文章目录 最优二叉搜索树问题(Java)1、前置介绍2、算法设计思路2.1 最优二叉搜索树的结构2.2 一个递归算法2.3 计算最优二叉搜索树的期望搜索代价 3、代码实现4、复杂度分析5、参考资料 1、前置介绍 设S={x1, x2, … , xn} 是有序集, 且x 阅读全文
posted @ 2022-11-23 05:30 WHYBIGDATA 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 大数据量一次性导入MongoDB 文章目录 大数据量一次性导入MongoDB0. 写在前面1. 前置芝士2. mongoimport命令导入JSON文件数据失败3. db.COLLECTION.count()返回值不正确4. 数据导入不完全5. 参考资料 0. 写在前面 Linux:Ubuntu16 阅读全文
posted @ 2022-11-22 05:30 WHYBIGDATA 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 棋盘覆盖问题(Java) 文章目录 棋盘覆盖问题(Java)1、问题描述2、算法设计思路3、代码实现4、复杂度分析5、参考 1、问题描述 在一个2k×2k个方格组成的棋盘中,若恰有一个方格与其他方格不同,则称该方格为一特殊方格,且称该棋盘为一个特殊棋盘。显然特殊方格在棋盘上出现的位置有4k 种情形. 阅读全文
posted @ 2022-11-21 10:13 WHYBIGDATA 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 执行HQL直接被退出:Remote side unexpectedly closed network connection 文章目录 执行HQL直接被退出:Remote side unexpectedly closed network connectionHQL语句执行情况描述原因正确HQL HQL 阅读全文
posted @ 2022-11-07 05:30 WHYBIGDATA 阅读(38) 评论(0) 推荐(0) 编辑
摘要: Navicat远程连接Linux的MySQL服务Error10061的解决方案 文章目录 Navicat远程连接Linux的MySQL服务Error10061的解决方案写在前面解决方法 写在前面 Linux:Ubuntu Kylin16.04MySQL: 5.7.33 解决方法 原因:关于Error 阅读全文
posted @ 2022-10-29 05:30 WHYBIGDATA 阅读(56) 评论(0) 推荐(0) 编辑
摘要: Hive命令使用记录 文章目录 Hive命令使用记录操作一些常用的Bash Shell 命令:操作HDFS 平台相关的命令:查看当前使用的数据库创建表的时候通过location 指定数据存储位置, 加载数据隐式类型转换的规则如下 操作一些常用的Bash Shell 命令: hive>紧跟一个"!" 阅读全文
posted @ 2022-10-24 15:41 WHYBIGDATA 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 数仓采集通道的设计 文章目录 数仓采集通道的设计写在前面方案一:方案二:方案三:最终方案 写在前面 离线和实时数仓共用一套数据采集通道系统数据采集存储到HDFS上完全分布式(三台节点) 方案一: (node01)Flume(TailDir Source) + Kafka Channel + HDFS 阅读全文
posted @ 2022-10-17 05:30 WHYBIGDATA 阅读(34) 评论(0) 推荐(0) 编辑