大数据从业者FelixZh

2018年9月27日

摘要：相对于无锁技术，Disruptor对于架构思维的转变，才是其最大亮点。 Pub Event 说到RingBuffer做的队列，通常都说的是“一读一写“，或者“多读一写“。而Disruptor天生是为“广播“设计，也就是1个Producer，多个Consumer消费同1条消息。有了“广播“，就能很好阅读全文

posted @ 2018-09-27 09:08 大数据从业者FelixZh 阅读(423) 评论(0) 推荐(0) 编辑

高性能队列——Disruptor

摘要：背景 Disruptor是英国外汇交易公司LMAX开发的一个高性能队列，研发的初衷是解决内存队列的延迟问题（在性能测试中发现竟然与I/O操作处于同样的数量级）。基于Disruptor开发的系统单线程能支撑每秒600万订单，2010年在QCon演讲后，获得了业界关注。2011年，企业应用软件专家Mar 阅读全文

posted @ 2018-09-27 09:03 大数据从业者FelixZh 阅读(490) 评论(0) 推荐(0) 编辑

2018年9月26日

flink Standalone Cluster

摘要： Requirements Software Requirements Flink runs on all UNIX-like environments, e.g. Linux, Mac OS X, and Cygwin (for Windows) and expects the cluster to 阅读全文

posted @ 2018-09-26 17:59 大数据从业者FelixZh 阅读(370) 评论(0) 推荐(0) 编辑

SQL解析在美团的应用

摘要： https://tech.meituan.com/SQL_parser_used_in_mtdp.html 数据库作为核心的基础组件，是需要重点保护的对象。任何一个线上的不慎操作，都有可能给数据库带来严重的故障，从而给业务造成巨大的损失。为了避免这种损失，一般会在管理上下功夫。比如为研发人员制定数据阅读全文

posted @ 2018-09-26 17:19 大数据从业者FelixZh 阅读(838) 评论(0) 推荐(0) 编辑

2018年9月25日

Kafka 0.11.0.0 实现 producer的Exactly-once 语义（官方DEMO）

摘要： A Kafka client that publishes records to the Kafka cluster. The producer is thread safe and sharing a single producer instance across threads will gen 阅读全文

posted @ 2018-09-25 17:35 大数据从业者FelixZh 阅读(1095) 评论(0) 推荐(0) 编辑

Kafka 0.11.0.0 实现 producer的Exactly-once 语义（中文）

摘要：很高兴地告诉大家，具备新的里程碑意义的功能的Kafka 0.11.x版本（对应 Confluent Platform 3.3）已经release，该版本引入了exactly-once语义，本文阐述的内容包括： Apache Kafka的exactly-once语义；为什么exactly-once是阅读全文

posted @ 2018-09-25 17:25 大数据从业者FelixZh 阅读(577) 评论(0) 推荐(0) 编辑

Kafka 0.11.0.0 实现 producer的Exactly-once 语义（英文）

摘要： Exactly-once Semantics are Possible: Here’s How Kafka Does it I’m thrilled that we have hit an exciting milestone the Kafka community has long been wa 阅读全文

posted @ 2018-09-25 17:23 大数据从业者FelixZh 阅读(496) 评论(0) 推荐(0) 编辑

flink window的early计算

摘要： Tumbing Windows：滚动窗口，窗口之间时间点不重叠。它是按照固定的时间，或固定的事件个数划分的，分别可以叫做滚动时间窗口和滚动事件窗口。Sliding Windows：滑动窗口，窗口之间时间点存在重叠。对于某些应用，它们需要的时间是不间断的，需要平滑的进行窗口聚合。例如，可以每30s记阅读全文

posted @ 2018-09-25 09:56 大数据从业者FelixZh 阅读(1411) 评论(0) 推荐(1) 编辑

Flink 的Window 操作（基于flink 1.3描述）

摘要： Window是无限数据流处理的核心，Window将一个无限的stream拆分成有限大小的”buckets”桶，我们可以在这些桶上做计算操作。本文主要聚焦于在Flink中如何进行窗口操作，以及程序员如何从window提供的功能中获得最大的收益。窗口化的Flink程序的一般结构如下，第一个代码段中是分阅读全文

posted @ 2018-09-25 09:52 大数据从业者FelixZh 阅读(2336) 评论(0) 推荐(0) 编辑

2018年9月21日

Flink Pre-defined Timestamp Extractors / Watermark Emitters（预定义的时间戳提取/水位线发射器）

摘要： https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/event_timestamp_extractors.html 根据官网描述，Flink提供预定义的时间戳提取/水位线发射器。如下： Flink provides abst 阅读全文

posted @ 2018-09-21 17:39 大数据从业者FelixZh 阅读(774) 评论(0) 推荐(0) 编辑

Flink Event Time Processing and Watermarks（文末有翻译）

摘要： If you are building a Realtime streaming application, Event Time processing is one of the features that you will have to use sooner or later. Since in 阅读全文

posted @ 2018-09-21 16:29 大数据从业者FelixZh 阅读(837) 评论(0) 推荐(0) 编辑

flink源码编译（windows环境）

摘要：前言最新开始捣鼓flink，fucking the code之前，编译是第一步。编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方阅读全文

posted @ 2018-09-21 11:09 大数据从业者FelixZh 阅读(3725) 评论(1) 推荐(0) 编辑

2018年9月19日

TableExistsException: hbase:namespace

摘要：解决：zookeeper还保留着上一次的Hbase设置，所以造成了冲突。删除zookeeper信息，重启之后就没问题了 1.切换到zookeeper的bin目录； 2.执行$sh zkCli.sh 1.切换到zookeeper的bin目录； 2.执行$sh zkCli.sh 输入‘ls /’ 4.输阅读全文

posted @ 2018-09-19 20:03 大数据从业者FelixZh 阅读(651) 评论(0) 推荐(0) 编辑

Operation category READ is not supported in state standby

摘要： Namenode 开启HA之后,由于zookeeper异常，出现脑裂现象执行 standby standby 两个互为HA的namenode节点均处于standby 状态，随后执行强行手工将namenode1状态转换为active PS： serverID即namenodeID，可以访问http 阅读全文

posted @ 2018-09-19 19:56 大数据从业者FelixZh 阅读(768) 评论(0) 推荐(0) 编辑

Ambari Metrics 详解

摘要： Ambari Metrics 原理 Ambari Metrics System 简称为 AMS，它主要为系统管理员提供了集群性能的监察功能。Metrics 一般分为 Cluster、Host 以及 Service 三个层级。 Cluster 和 Host 级主要负责监察集群机器相关的性能，而 Ser 阅读全文

posted @ 2018-09-19 19:29 大数据从业者FelixZh 阅读(8577) 评论(0) 推荐(1) 编辑

深入Ambari Metrics 机制分析

摘要： 0.简介 Ambari作为一款针对大数据平台的运维管理工具，提供了集群的创建，管理，监控，升级等多项功能，目前在业界已经得到广泛使用。 Ambari指标系统（ Ambari Metrics System，以下简称AMS）主要负责监控平台各类服务及主机的运行情况，提供各类服务及主机的相关指标，从而达到阅读全文

posted @ 2018-09-19 17:24 大数据从业者FelixZh 阅读(4395) 评论(0) 推荐(0) 编辑

2018年9月14日

Spark-RDD之Partition源码分析

摘要：概要 Spark RDD主要由Dependency、Partition、Partitioner组成，Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了阅读全文

posted @ 2018-09-14 08:48 大数据从业者FelixZh 阅读(1355) 评论(0) 推荐(1) 编辑

spark-RDD源码分析

摘要： http://stark-summer.iteye.com/blog/2178096 RDD的核心方法：首先看一下getPartitions方法的源码： getPartitions返回的是一系列partitions的集合，即一个Partition类型的数组我们就想进入HadoopRDD实现： 1 阅读全文

posted @ 2018-09-14 08:42 大数据从业者FelixZh 阅读(823) 评论(0) 推荐(0) 编辑

2018年9月12日

Redis内存优化memory-optimization

摘要： https://redis.io/topics/memory-optimization 官方文档一、特殊编码：自从Redis 2.2之后，很多数据类型都可以通过特殊编码的方式来进行存储空间的优化。其中，Hash、List和由Integer组成的Sets都可以通过该方式来优化存储结构，以便占用更少阅读全文

posted @ 2018-09-12 16:53 大数据从业者FelixZh 阅读(1006) 评论(0) 推荐(0) 编辑

2018年9月6日

DeveloperGuide Hive UDAF

摘要： Writing GenericUDAFs: A Tutorial User-Defined Aggregation Functions (UDAFs) are an excellent way to integrate advanced data-processing into Hive. Hive 阅读全文

posted @ 2018-09-06 20:34 大数据从业者FelixZh 阅读(711) 评论(0) 推荐(0) 编辑

DeveloperGuide Hive UDTF

摘要： Writing UDTF's Writing UDTF's GenericUDTF Interface GenericUDTF Interface A custom UDTF can be created by extending the GenericUDTF abstract class and 阅读全文

posted @ 2018-09-06 20:32 大数据从业者FelixZh 阅读(413) 评论(0) 推荐(0) 编辑

DeveloperGuide Hive UDF

摘要： Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more methods named evaluate. package com.example.hive.udf; im 阅读全文

posted @ 2018-09-06 20:30 大数据从业者FelixZh 阅读(329) 评论(0) 推荐(0) 编辑

2018年8月24日

Idea+Maven创建scala项目

摘要： 1.选择Create New Project 2.如下图选择，然后下一步 3.一直Next，填写groupID，artifactid，projectName之后等待IDEA初始化。 4.IDEA完成初始化之后，点击左上角的自动导入。 5.删除下面红框类，不必要的内容避免报错： 6.修改pom.xml 阅读全文

posted @ 2018-08-24 14:37 大数据从业者FelixZh 阅读(2771) 评论(0) 推荐(0) 编辑

使用idea搭建Scala 项目

摘要：主要内容 1. Intellij IDEA开发环境简介具体介绍请参见：http://baike.baidu.com/link?url=SBY93H3SPkmcmIOmZ8H60O1k4iVLgOmdqoKdGp9xHtU-Pbdsq2cpn75ZPZPWAJxeUlwr0ravraQzOckh77 阅读全文

posted @ 2018-08-24 14:36 大数据从业者FelixZh 阅读(2658) 评论(0) 推荐(0) 编辑

APACHE SPARK 2.0 API IMPROVEMENTS: RDD, DATAFRAME, DATASET AND SQL

摘要： What’s New, What’s Changed and How to get Started. Are you ready for Apache Spark 2.0? If you are just getting started with Apache Spark, the 2.0 rele 阅读全文

posted @ 2018-08-24 08:37 大数据从业者FelixZh 阅读(284) 评论(0) 推荐(0) 编辑

There Are Now 3 Apache Spark APIs. Here’s How to Choose the Right One

摘要： See Apache Spark 2.0 API Improvements: RDD, DataFrame, DataSet and SQL here. Apache Spark is evolving at a rapid pace, including changes and additions 阅读全文

posted @ 2018-08-24 08:36 大数据从业者FelixZh 阅读(278) 评论(0) 推荐(0) 编辑

2018年8月23日

Java Api Consumer 连接启用Kerberos认证的Kafka

摘要： java程序连接到一个需要Kerberos认证的kafka集群上，消费生产者生产的信息，kafka版本是2.10-0.10.0.1； Java程序以maven构建，（怎么构建maven工程，可去问下度娘：“maven工程入门示例”）先上pom.xml文件然后是Jave代码，先上图，一一解释图中标阅读全文

posted @ 2018-08-23 20:33 大数据从业者FelixZh 阅读(6416) 评论(0) 推荐(0) 编辑

kafka实战kerberos

摘要： more /etc/krb5.conf kadmin.local klist -t -e -k /var/kerberos/krb5kdc/kafka.keytab more zookeeper_jaas.conf more kafka_server_jaas.conf more config/se 阅读全文

posted @ 2018-08-23 20:31 大数据从业者FelixZh 阅读(2704) 评论(0) 推荐(0) 编辑

USING KERBEROS

摘要： https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/6/html/managing_smart_cards/using_kerberos#Additional_Resources Maintaining sys 阅读全文

posted @ 2018-08-23 20:26 大数据从业者FelixZh 阅读(495) 评论(0) 推荐(0) 编辑

KERBEROS PROTOCOL TUTORIAL

摘要： KERBEROS PROTOCOL TUTORIAL This tutorial was written by Fulvio Ricciardi and is reprinted here with his permission. Mr. Ricciardi works at the Nationa 阅读全文

posted @ 2018-08-23 20:20 大数据从业者FelixZh 阅读(418) 评论(0) 推荐(0) 编辑

大数据从业者

最新文章，见微信公众号：大数据从业者

公告