03 2019 档案
摘要:dataframe增加index主键列
阅读全文
摘要:hbase特点及简介: hbase源自于谷歌的三大论文之一 GFS -- hdfs MapReduce - MR BigTable - hbase hbase在以Hadoop为基础的生态圈中的地位 hbase和Hadoop的hdfs结合使用,构建在hdfs上的数据库(hbase为hdfs上的海量的结构化或非结构数据构建了层层的索引) 为存储在hdfs上的海量...
阅读全文
摘要:public class LinklistReverse { //定义类节点类 封装节点信息 static class Node { private int value; private Node next; public Node(int value) { this.value = value; ...
阅读全文
摘要:1.实时插入mysql时遇到的问题,使用的updateStaeBykey有状态的算子 必须设置checkpoint 如果报错直接删掉checkpoint 在创建的时候自己保存偏移量即可 再次启动时读取正确偏移量就行了 管他checkpoint 无关的事了 实时插入时有个问题是怎么进行mysql的数据
阅读全文
摘要:关于hadoop一些自定义输出 code>OutputFormat describes the output-specification for a * Map-Reduce job. 首先继承outputFormat这个抽象类 Map-Reduce job的输出规范 实现他的方法: RecordWriter getRecordWriter 在方法内可以进行数据库连接操作 这里需要一个返回一...
阅读全文
摘要:linux 创建连接命令 ln -s 软链接 这是linux中一个非常重要命令,请大家一定要熟悉。它的功能是为某一个文件在另外一个位置建立一个同不的链接,这个命令最常用的参数是-s, 具体用法是:ln -s 源文件 目标文件。 当 我们需要在不同的目录,用到相同的文件时,我们不需要在每一个需要的目录下都放一个必须相同的文件,我们只要在某个固定的目录,放上该文件,然后在其它的 目录下用ln命令链接...
阅读全文
摘要:#!/bin/bash # dataformat=`date +%Y-%m-%d-%H-%M` #进行文件件cp并重命名 nginx_home=/opt/modules/nginx-1.12/ cp ${nginx_home}logs/access.log ${nginx_home}logs/access_$dataformat.log host=`hostname` #在每行之前插入ngi...
阅读全文
摘要:Synchronized(this) 锁住该代码块的对象,等访问该对象的线程执行完,其他线程才可以执行。 Synchronized(xxx.class) 锁住该类,所有访问该类的线程,一次只有一个可以执行。 其他 A. 无论synchronized关键字加在方法上还是对象上,如果它作用的对象是非静态的,则它取得的锁是对象;如果synchronized作用的对象是一个静态方法或一个类,则它取...
阅读全文
摘要:对于kafak与sparkstreaming集成后 存在的问题 一。基于receiver的方式在kafka1.0后好像是去取消了 都是高级api 默认是200毫秒接受的数据形成一个block块,设置5s为一个批次 那就是5000/200 为25个分区 1.val kafkaParams = Map( "zookeeper.connect" -> "bigdata.server...
阅读全文
摘要:redis是一种高级的key:value存储系统,其中value支持五种数据类型: 1.字符串(strings) 2.字符串列表(lists) 3.字符串集合(sets) 4.有序字符串集合(sorted sets) 5.哈希(hashes) 而关于key,有几个点要提醒大家: 1.key不要太长,尽量不要超过1024字节,这不仅消耗内存,而且会降低查找的效率; 2.key也不要太短,太短...
阅读全文
摘要:import java.util import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD...
阅读全文
摘要:hadoop-client依赖很乱 调试很多次cdh版本好多jar没有 用hadoop2.7.3可以 自定义输出流的池子进行流管理 public void writeLog2HDFS(String path, byte[] log) { try { //得到我们的装饰流 FSDataOutputStream ou...
阅读全文