大数据 - 随笔分类 - 夜半钟声到客船

最快方式搭建docker大数据测试集群

摘要：平时搭建一套测试集群找包找的累死，现在使用docker搭建 cdh版本的 1.首先在服务器上安装docker yum install docker 2.配置国内阿里云docker仓库服务 https://cr.console.aliyun.com/cn-hangzhou/instances/m 阅读全文

posted @ 2024-06-20 18:12 夜半钟声到客船阅读(209) 评论(0) 推荐(0)

hbck2的一些用法

摘要：一、执行 hbase org.apache.hbase.HBCK2 可以看到下面一些选择项 **示例: -d 打印debug日志 -s 跳过客户端与服务端一致性的版本检测 hbase org.apache.hbase.HBCK2 -d -s bypass 1、bypass [OPTIONS] ... 阅读全文

posted @ 2021-08-03 21:49 夜半钟声到客船阅读(908) 评论(0) 推荐(0)

HBCK2修复hbase2的常见场景

摘要：上一文章已经把HBCK2 怎么在小于hbase2.0.3版本的编译与用法介绍了，解决主要场景查看hbase存在的问题一、使用hbase hbck命令 hbase hbck命令是对hbase的元数据进行检查，看是否有不健康的region 问题1：Unable to read .tableinfo 阅读全文

posted @ 2021-08-02 10:10 夜半钟声到客船阅读(1106) 评论(0) 推荐(0)

HBase2版本的修复工具HBCK2

摘要：一、hbase出现的问题 1.元数据表hbase:namespace 不在线导致查询数据时 master is initing 2.一些表的region一直处于opening状态 3.region is not online 二、修复工具编译 git地址 https://github.com/ap 阅读全文

posted @ 2021-07-28 19:55 夜半钟声到客船阅读(1390) 评论(1) 推荐(0)

Spark的dataframe转rdd为实体类通用工具类

摘要：需求解决问题当每次读取hive表或者其他数据源，获取数据，相对其进行rdd操作，遇到任何类都需要df.rdd(row>row.getstring(0))去获取，就很麻烦，所以可以实现个通用的转换方式 1.dataframe转为rdd通用方法 /** * df转为rdd 通用方法 * * @para 阅读全文

posted @ 2020-11-04 23:46 夜半钟声到客船阅读(751) 评论(1) 推荐(0)

spark优化项

摘要：一、Shuffle优化项 1、Shuffle优化配置 - spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲阅读全文

posted @ 2020-03-24 23:04 夜半钟声到客船阅读(375) 评论(0) 推荐(0)

Phoenix-4.14-cdh5.14.2与hbase-1.2.0-cdh5.14.2集成测试

摘要：Phoenix介绍：针对hbase开发的第三方插件，目前已贡献给Apache，顶级项目 Phoenix是构建在HBase上的一个SQL层可以使用类似于操作mysql的标准sql语句，作为hbase客户端JDBC的驱动对hbase中的数据进行低延迟的访问内部实现为将sql查询语句编译成hbase 阅读全文

posted @ 2020-01-06 22:43 夜半钟声到客船阅读(897) 评论(0) 推荐(0)

如何评估数据质量？

摘要：数据质量评估在做了近一个多月的数据质量评估方案工作，基本实现了从产出原始数据、数据清洗、入库有效数据等阶段,从对质量没有任何概念到实现基本的指标展示，也算是从设计到代码到展示的流程跑通，在一定程度已经能体现公司目前的数据质量 1.为什么做数据质量？公司数据是从Excel挖掘出来的，不确定性与未知阅读全文

posted @ 2019-12-06 23:50 夜半钟声到客船阅读(5317) 评论(0) 推荐(0)

kafka的概念

摘要：1.生产者：生产者发送消息到broker，有三种确认方式（request.required.acks）acks = 0: producer不会等待broker（leader）发送ack 。因为发送消息网络超时或broker crash(1.Partition的Leader还没有commit消息 2 阅读全文

posted @ 2019-09-02 23:04 夜半钟声到客船阅读(322) 评论(0) 推荐(0)

maven打包依赖jar与不依赖jar

摘要：?xml version="1.0" encoding="UTF-8"?> <assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0" xmlns:xsi="http://www.w3. 阅读全文

posted @ 2019-07-17 22:04 夜半钟声到客船阅读(4282) 评论(1) 推荐(0)

spark Streaming

摘要：Spark Streaming输入 //*************** Spark Streaming 的输入 ************** 1、文件数据源 1、Spark Streaming通过streamingContext.fileStream[KeyClass, ValueClass, I 阅读全文

posted @ 2019-06-16 10:03 夜半钟声到客船阅读(277) 评论(0) 推荐(0)

面试总结

摘要：目前就上海招聘的信息来看：一、etl、sql工程师占60%，多半是外包（一）笔试多是sql，典型的 1.Hive 实现wordcount select word,count(*) from ( select explode(split(sentence,' ')) as word from article b ) t group by word 2.类似于这种购买占比或者平均数（每个... 阅读全文

posted @ 2019-05-29 00:11 夜半钟声到客船阅读(366) 评论(0) 推荐(0)

官网对于sparkstreaming与kafka集成一些建议

摘要：https://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html 阅读全文

posted @ 2019-05-16 10:25 夜半钟声到客船阅读(156) 评论(0) 推荐(0)

sql删除重复数据思路

摘要：总的思路就是先找出表中重复数据中的一条数据，插入临时表中，删除所有的重复数据，然后再将临时表中的数据插入表中。所以重点是如何找出重复数据中的一条数据，有三种情况 1.重复数据完全一样，使用distinct select distinct * from table 2.id列不同,id类型为int,自阅读全文

posted @ 2019-05-15 17:34 夜半钟声到客船阅读(235) 评论(0) 推荐(0)

hive的常见判断与抽样函数

摘要：1.If函数:if和case差不多，都是处理单个列的查询结果语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull) 返回值: T 说明: 当条件testCondition为TRUE时，返回valueTrue；否则返回valueFalseOrNull 举例：if（条件表达式，结果1，结果2）相当于java中的三目运算符... 阅读全文

posted @ 2019-04-29 18:41 夜半钟声到客船阅读(1510) 评论(0) 推荐(0)

在mysql 中使用utf8的问题

摘要：在MapReducer插入mysql 遇到了 Incorrect string value: '\xF0\x9F\x98\xAD",...' for column 'commentContent' at row 1 的问题因为数据中存在表情符号处理办法：先修改 mysql 字段编码在修改数据阅读全文

posted @ 2019-04-26 17:57 夜半钟声到客船阅读(368) 评论(0) 推荐(0)

dataframe的进行json数据的压平、增加一列的id自增列

摘要：dataframe增加index主键列阅读全文

posted @ 2019-03-26 23:07 夜半钟声到客船阅读(1104) 评论(0) 推荐(0)

hbase的一些要点

摘要：hbase特点及简介： hbase源自于谷歌的三大论文之一 GFS -- hdfs MapReduce - MR BigTable - hbase hbase在以Hadoop为基础的生态圈中的地位 hbase和Hadoop的hdfs结合使用，构建在hdfs上的数据库（hbase为hdfs上的海量的结构化或非结构数据构建了层层的索引）为存储在hdfs上的海量... 阅读全文

posted @ 2019-03-26 22:10 夜半钟声到客船阅读(317) 评论(0) 推荐(0)

单链表的反转

摘要：public class LinklistReverse { //定义类节点类封装节点信息 static class Node { private int value; private Node next; public Node(int value) { this.value = value; ... 阅读全文

posted @ 2019-03-26 21:59 夜半钟声到客船阅读(206) 评论(0) 推荐(0)

笔记02 linux的一些命令sed

摘要：#!/bin/bash # dataformat=`date +%Y-%m-%d-%H-%M` #进行文件件cp并重命名 nginx_home=/opt/modules/nginx-1.12/ cp ${nginx_home}logs/access.log ${nginx_home}logs/access_$dataformat.log host=`hostname` #在每行之前插入ngi... 阅读全文

posted @ 2019-03-13 22:11 夜半钟声到客船阅读(224) 评论(0) 推荐(0)

落霞与孤鹜齐飞

中山桥砖厂搬砖者

随笔分类 - 大数据

公告