大数据从业者FelixZh

2019年1月17日

摘要：一、Hbase介绍二、Hbase的Region介绍三、Hbase的写逻辑介绍四、Hbase的故障恢复五、Hbase的拆分和合并如下ppt所示：下面就来针对各个部分的内容来进行详细的介绍：一、Hbase介绍 1、Hbase简介 Hbase是Hadoop Database的简称，Hbas 阅读全文

posted @ 2019-01-17 14:50 大数据从业者FelixZh 阅读(736) 评论(0) 推荐(0) 编辑

2019年1月16日

windows环境：idea或者eclipse指定用户名操作hadoop集群

摘要：方法在系统的环境变量或java JVM变量添加HADOOP_USER_NAME（具体值视情况而定）。比如：idea里面可以如下添加HADOOP_USER_NAME=hdfs 原理：直接看源码 /hadoop-3.0.3-src/hadoop-common-project/hadoop-commo 阅读全文

posted @ 2019-01-16 14:11 大数据从业者FelixZh 阅读(2719) 评论(0) 推荐(0) 编辑

2019年1月15日

HBase源码实战：BufferedMutator

摘要： /** * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard... 阅读全文

posted @ 2019-01-15 19:54 大数据从业者FelixZh 阅读(1704) 评论(0) 推荐(0) 编辑

HBase工具：如何查看HBase的HFile

摘要：命令使用案例：阅读全文

posted @ 2019-01-15 19:30 大数据从业者FelixZh 阅读(1905) 评论(0) 推荐(0) 编辑

HBase源码实战：CreateRandomStoreFile

摘要： /* * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regardi... 阅读全文

posted @ 2019-01-15 19:22 大数据从业者FelixZh 阅读(312) 评论(0) 推荐(0) 编辑

HBase源码实战：ImportTsv

摘要： /** * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard... 阅读全文

posted @ 2019-01-15 19:20 大数据从业者FelixZh 阅读(879) 评论(0) 推荐(0) 编辑

2019年1月14日

No FileSystem for scheme: hdfs问题

摘要：通过FileSystem.get(conf)初始化的时候，要通过静态加载来实现，其加载类的方法代码如下： onf.getClass需要读取hadoop-common-x.jar下面的core-default.xml，但是这个xml里面没有fs.hdfs.impl的配置信息，所以需要将这个类给配置上去阅读全文

posted @ 2019-01-14 17:25 大数据从业者FelixZh 阅读(4082) 评论(0) 推荐(0) 编辑

2019年1月12日

HBase案例：HBase 在人工智能场景的使用

摘要：近几年来，人工智能逐渐火热起来，特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据，处理完的数据一般都需要存储起来，这些数据的特点主要有如下几点：大：数据量越大，对我们后面建模越会有好处；稀疏：每行数据可能阅读全文

posted @ 2019-01-12 19:25 大数据从业者FelixZh 阅读(1082) 评论(0) 推荐(0) 编辑

为什么不建议在 HBase 中使用过多的列族

摘要：我们知道，一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述： A typical schema has between 1 and 3 column families per table. HBase tables should not be 阅读全文

posted @ 2019-01-12 19:08 大数据从业者FelixZh 阅读(2487) 评论(0) 推荐(0) 编辑

2019年1月11日

HBase Rowkey 设计指南

摘要：为什么Rowkey这么重要 RowKey 到底是什么我们常说看一张 HBase 表设计的好不好，就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么？RowKey 的特点如下：类似于 MySQL、Oracle中的主键，用于标示唯一的行阅读全文

posted @ 2019-01-11 17:56 大数据从业者FelixZh 阅读(919) 评论(0) 推荐(0) 编辑

HBase 是列式存储数据库吗

摘要：在介绍 HBase 是不是列式存储数据库之前，我们先来了解一下什么是行式数据库和列式数据库。行式数据库和列式数据库在维基百科里面，对行式数据库和列式数据库的定义为：列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理（OLAP）和即时查询。相对应的是行式数据库，数据以行相关的阅读全文

posted @ 2019-01-11 17:32 大数据从业者FelixZh 阅读(4601) 评论(2) 推荐(0) 编辑

KafkaManager编译安装使用（支持kerberos认证）

摘要：为了能够方便的查看及管理Kafka集群，yahoo提供了一个基于Web的管理工具（Kafka-Manager）。这个工具可以方便的查看集群中Kafka的Topic的状态（分区、副本及消息量等），支持管理多个集群、重新分配Partition及创建Topic等功能。 jdk、sbt自行安装吧 sbt源阅读全文

posted @ 2019-01-11 15:20 大数据从业者FelixZh 阅读(1548) 评论(0) 推荐(0) 编辑

sbt安裝與配置

摘要：官方下載地址：https://www.scala-sbt.org/download.html?spm=a2c4e.11153940.blogcont238365.9.42d147e0iF8dhv 解压即安装，配置环境变量。在conf文件夹下新建repo.properties（默认源真的无法忍受）阅读全文

posted @ 2019-01-11 14:56 大数据从业者FelixZh 阅读(590) 评论(0) 推荐(0) 编辑

2019年1月10日

HBase实践案例：车联网监控系统

摘要：项目背景本项目为车联网监控系统，系统由车载硬件设备、云服务端构成。车载硬件设备会定时采集车辆的各种状态信息，并通过移动网络上传到服务器端。服务器端接收到硬件设备发送的数据首先需要将数据进行解析，校验，随后会将该消息转发到国家汽车监测平台和地方汽车监测平台，最后将解析后的明文数据和原始报文数据存储到阅读全文

posted @ 2019-01-10 19:58 大数据从业者FelixZh 阅读(2981) 评论(0) 推荐(1) 编辑

HBase实践案例：知乎 AI 用户模型服务性能优化实践

摘要：用户模型简介知乎 AI 用户模型服务于知乎两亿多用户，主要为首页、推荐、广告、知识服务、想法、关注页等业务场景提供数据和服务，例如首页个性化 Feed 的召回和排序、相关回答等用到的用户长期兴趣特征，问题路由、回答排序中用到的 TPR「作者创作权威度」，广告定向投放用到的基础属性等。主要功能阅读全文

posted @ 2019-01-10 19:22 大数据从业者FelixZh 阅读(1035) 评论(0) 推荐(0) 编辑

通过BulkLoad快速将海量数据导入到Hbase

摘要：在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的Bul 阅读全文

posted @ 2019-01-10 19:07 大数据从业者FelixZh 阅读(1038) 评论(0) 推荐(0) 编辑

spark读写hbase性能对比

摘要：一、spark写入hbase hbase client以put方式封装数据，并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此，将同样的数据插入其中对比性能。依赖如下： 1. put逐条插入1. 阅读全文

posted @ 2019-01-10 17:17 大数据从业者FelixZh 阅读(4221) 评论(0) 推荐(0) 编辑

HBase BulkLoad批量写入数据实战

摘要： 1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式，在导入数据的过程中，如果数据量过大，可能耗时会比较严重或者占用HBase集群资源较多（如磁盘IO、H 阅读全文

posted @ 2019-01-10 16:54 大数据从业者FelixZh 阅读(2632) 评论(0) 推荐(0) 编辑

2019年1月9日

HBase2.0中的Benchmark工具 — PerformanceEvaluation

摘要：简介在项目开发过程中，我们经常需要一些benchmark工具来对系统进行压测，以获得系统的性能参数，极限吞吐等等指标。而在HBase中，就自带了一个benchmark工具—PerformanceEvaluation，可以非常方便地对HBase的Put、Get、Scan等API进行性能测试，并提供阅读全文

posted @ 2019-01-09 19:13 大数据从业者FelixZh 阅读(3093) 评论(0) 推荐(0) 编辑

HBase Client JAVA API

摘要：旧的 HBase 接口逻辑与传统 JDBC 方式很不相同，新的接口与传统 JDBC 的逻辑更加相像，具有更加清晰的 Connection 管理方式。同时，在旧的接口中，客户端何时将 Put 写到服务端也需要设置，一个 Put 马上写到服务端，还是攒到一批写到服务端，新用户往往对此不太清楚。在新阅读全文

posted @ 2019-01-09 11:35 大数据从业者FelixZh 阅读(2402) 评论(0) 推荐(0) 编辑

2019年1月8日

An Overview of End-to-End Exactly-Once Processing in Apache Flink (with Apache Kafka, too!)

摘要： 01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation of Piotr Nowojski’s presentation from Flink Forward Ber 阅读全文

posted @ 2019-01-08 09:25 大数据从业者FelixZh 阅读(498) 评论(0) 推荐(0) 编辑

2019年1月7日

Hadoop Compatibility in Flink

摘要： 18 Nov 2014 by Fabian Hüske (@fhueske) Apache Hadoop is an industry standard for scalable analytical data processing. Many data analysis applications 阅读全文

posted @ 2019-01-07 20:29 大数据从业者FelixZh 阅读(696) 评论(0) 推荐(0) 编辑

HBase 数据模型

摘要：在HBase中，数据是存储在有行有列的表格中。这是与关系型数据库重复的术语，并不是有用的类比。相反，HBase可以被认为是一个多维度的映射。 HBase数据模型术语 Table（表格）一个HBase表格由多行组成。 Row（行） HBase中的行里面包含一个key和一个或者多个包含值的列。行按照行阅读全文

posted @ 2019-01-07 14:16 大数据从业者FelixZh 阅读(780) 评论(0) 推荐(0) 编辑

2019年1月3日

Apache Flink中的广播状态实用指南

摘要：感谢英文原文作者：https://data-artisans.com/blog/a-practical-guide-to-broadcast-state-in-apache-flink 不过，原文最近好像不能访问了。应该是https://www.da-platform.com/网站移除了blog板块阅读全文

posted @ 2019-01-03 19:42 大数据从业者FelixZh 阅读(2535) 评论(0) 推荐(0) 编辑

数据库连接池性能比对(hikari druid c3p0 dbcp jdbc)

摘要： https://blog.csdn.net/qq_31125793/article/details/51241943 背景对现有的数据库连接池做调研对比，综合性能，可靠性，稳定性，扩展性等因素选出推荐出最优的数据库连接池。 NOTE: 本文所有测试均是MySQL库测试结论 1：性能方面 hik 阅读全文

posted @ 2019-01-03 10:26 大数据从业者FelixZh 阅读(8775) 评论(0) 推荐(1) 编辑

2019年1月2日

Flink流处理的时间窗口

摘要： Flink流处理的时间窗口对于流处理系统来说，流入的消息是无限的，所以对于聚合或是连接等操作，流处理系统需要对流入的消息进行分段，然后基于每一段数据进行聚合或是连接等操作。消息的分段即称为窗口，流处理系统支持的窗口有很多类型，最常见的就是时间窗口，基于时间间隔对消息进行分段处理。本节主要介绍Fl 阅读全文

posted @ 2019-01-02 15:52 大数据从业者FelixZh 阅读(4959) 评论(0) 推荐(0) 编辑

2018年12月29日

Kafka设计解析（八）- Exactly Once语义与事务机制原理

摘要：本文介绍了Kafka实现事务性的几个阶段——正好一次语义与原子操作。之后详细分析了Kafka事务机制的实现原理，并介绍了Kafka如何处理事务相关的异常情况，如Transaction Coordinator宕机。最后介绍了Kafka的事务机制与PostgreSQL的MVCC以及Zookeeper的原阅读全文

posted @ 2018-12-29 15:56 大数据从业者FelixZh 阅读(709) 评论(0) 推荐(0) 编辑

2018年12月27日

kafka 幂等生产者及事务(kafka0.11之后版本新特性)

摘要： 1. 幂等性设计1.1 引入目的生产者重复生产消息。生产者进行retry会产生重试时，会重复产生消息。有了幂等性之后，在进行retry重试时，只会生成一个消息。 1.2 幂等性实现1.2.1 PID 和 Sequence Number为了实现Producer的幂等性，Kafka引入了Producer 阅读全文

posted @ 2018-12-27 14:23 大数据从业者FelixZh 阅读(6083) 评论(0) 推荐(4) 编辑

git 忽略 .idea文件

摘要：多人开发时,会出现明明在gitignore中忽略了.idea文件夹,但是提交时仍旧会出现.idea内文件变动的情况原因.idea已经被git跟踪，之后再加入.gitignore后是没有作用的解决办法清除.idea的git缓存参考： https://stackoverflow.com/quest 阅读全文

posted @ 2018-12-27 11:36 大数据从业者FelixZh 阅读(2972) 评论(0) 推荐(0) 编辑

Java Scala 混合编程导致编译失败，【找不到符号】问题解决

摘要：大致就是工程里分了 java 代码和 scala 代码。然后在java代码中引用了 scala 的代码。运行不报错。但是打包就是一直报错。如果直接把java代码放在 scala 里面，编译时会直接忽略这个类，不参与编译。在pom 里加了一个插件，解决了报错问题。 <plugin> < 阅读全文

posted @ 2018-12-27 11:10 大数据从业者FelixZh 阅读(4210) 评论(0) 推荐(0) 编辑

大数据从业者

最新文章，见微信公众号：大数据从业者

公告