随笔分类 - 大数据
摘要:平时搭建一套测试集群 找包 找的累死,现在使用docker搭建 cdh版本的 1.首先在服务器上安装docker yum install docker 2.配置国内 阿里云docker仓库服务 https://cr.console.aliyun.com/cn-hangzhou/instances/m
阅读全文
摘要:一、执行 hbase org.apache.hbase.HBCK2 可以看到下面一些选择项 **示例: -d 打印debug日志 -s 跳过客户端与服务端一致性的版本检测 hbase org.apache.hbase.HBCK2 -d -s bypass 1、bypass [OPTIONS] ...
阅读全文
摘要:上一文章已经把HBCK2 怎么在小于hbase2.0.3版本的编译与用法介绍了,解决主要场景 查看hbase存在的问题 一、使用hbase hbck命令 hbase hbck命令是对hbase的元数据进行检查,看是否有不健康的region 问题1:Unable to read .tableinfo
阅读全文
摘要:一、hbase出现的问题 1.元数据表hbase:namespace 不在线 导致查询数据时 master is initing 2.一些表的region一直处于opening状态 3.region is not online 二、修复工具编译 git地址 https://github.com/ap
阅读全文
摘要:需求解决问题 当每次读取hive表或者其他数据源,获取数据,相对其进行rdd操作,遇到任何类都需要df.rdd(row>row.getstring(0))去获取,就很麻烦,所以可以实现个通用的转换方式 1.dataframe转为rdd通用方法 /** * df转为rdd 通用方法 * * @para
阅读全文
摘要:一、Shuffle优化项 1、Shuffle优化配置 - spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲
阅读全文
摘要:Phoenix介绍: 针对hbase开发的第三方插件,目前已贡献给Apache,顶级项目 Phoenix是构建在HBase上的一个SQL层 可以使用类似于操作mysql的标准sql语句,作为hbase客户端JDBC的驱动对hbase中的数据进行低延迟的访问 内部实现为将sql查询语句编译成hbase
阅读全文
摘要:数据质量评估 在做了近一个多月的数据质量评估方案工作,基本实现了从产出原始数据、数据清洗、入库有效数据等阶段,从对质量没有任何概念到实现基本的指标展示,也算是从设计到代码到展示的流程跑通,在一定程度已经能体现公司目前的数据质量 1.为什么做数据质量? 公司数据是从Excel挖掘出来的,不确定性与未知
阅读全文
摘要:1.生产者: 生产者发送消息到broker,有三种确认方式(request.required.acks)acks = 0: producer不会等待broker(leader)发送ack 。因为发送消息网络超时或broker crash(1.Partition的Leader还没有commit消息 2
阅读全文
摘要:?xml version="1.0" encoding="UTF-8"?> <assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0" xmlns:xsi="http://www.w3.
阅读全文
摘要:Spark Streaming输入 //*************** Spark Streaming 的输入 ************** 1、 文件数据源 1、Spark Streaming通过streamingContext.fileStream[KeyClass, ValueClass, I
阅读全文
摘要:目前就上海招聘的信息来看: 一、etl、sql工程师占60%,多半是外包 (一)笔试多是sql,典型的 1.Hive 实现wordcount select word,count(*) from ( select explode(split(sentence,' ')) as word from article b ) t group by word 2.类似于这种购买占比或者平均数(每个...
阅读全文
摘要:https://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html
阅读全文
摘要:总的思路就是先找出表中重复数据中的一条数据,插入临时表中,删除所有的重复数据,然后再将临时表中的数据插入表中。所以重点是如何找出重复数据中的一条数据,有三种情况 1.重复数据完全一样,使用distinct select distinct * from table 2.id列不同,id类型为int,自
阅读全文
摘要:1.If函数:if和case差不多,都是处理单个列的查询结果 语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull) 返回值: T 说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull 举例:if(条件表达式,结果1,结果2)相当于java中的三目运算符...
阅读全文
摘要:在MapReducer插入mysql 遇到了 Incorrect string value: '\xF0\x9F\x98\xAD",...' for column 'commentContent' at row 1 的问题 因为数据中存在表情符号 处理办法: 先修改 mysql 字段编码 在修改数据
阅读全文
摘要:dataframe增加index主键列
阅读全文
摘要:hbase特点及简介: hbase源自于谷歌的三大论文之一 GFS -- hdfs MapReduce - MR BigTable - hbase hbase在以Hadoop为基础的生态圈中的地位 hbase和Hadoop的hdfs结合使用,构建在hdfs上的数据库(hbase为hdfs上的海量的结构化或非结构数据构建了层层的索引) 为存储在hdfs上的海量...
阅读全文
摘要:public class LinklistReverse { //定义类节点类 封装节点信息 static class Node { private int value; private Node next; public Node(int value) { this.value = value; ...
阅读全文
摘要:#!/bin/bash # dataformat=`date +%Y-%m-%d-%H-%M` #进行文件件cp并重命名 nginx_home=/opt/modules/nginx-1.12/ cp ${nginx_home}logs/access.log ${nginx_home}logs/access_$dataformat.log host=`hostname` #在每行之前插入ngi...
阅读全文