摘要:
当下大数据技术发展如火如荼,各种数据库处理技术层出不穷,可是各种数据库的大致分类清楚吗?能够结合项目数据的业务特点进行选型吗?今天先从OLAP型数据库说起,介绍相关的数据库。 OLTP和OLAP分不清? 我们通常将数据库分为OLTP和OLAP两大类,先了解一下它们的区别: OLTP (online 阅读全文
摘要:
背景 业务上有一份行车轨迹的数据 carRecord.csv 如下: 其中各字段含义分别为记录id,车牌号,抓拍卡口,抓拍时间。现在需要筛选出所有车辆最后出现的一条记录,得到每辆车最后经过的抓拍点信息,也就是要将其他日期的数据过滤掉,我们可以使用选择去重。下面分别展示通过 dataframe 和 r 阅读全文
摘要:
Storm 的编程模型是一个有向无环图,模型角度决定了 Storm 的 Spout 接收到外部系统的请求,将请求数据分发给下游的 bolt 进行处理后,spout 并不能得到 bolt 的处理结果并将结果返回给外部请求。所以应用场景中 Storm 对外部系统的调用都是采用回调的方式: 1. 接收外部 阅读全文
摘要:
查看 框架 为实现对 连接状态 的管理与监听是怎么构造的。后面我们也可以应用到业务的各种监听中。 Curator2.13实现 接口 Listener 接口,给用户实现 传入新的状态,用户实现对这新的状态要做什么逻辑处理。 接口 Listenable 提供一个监听对象容器的接口 ListenerCon 阅读全文
摘要:
Strom安装 Strom启动 Storm简介 低延迟。高性能。可扩展。 分布式。系统都是为应用场景而生的,如果你的应用场景、你的数据和计算单机就能搞定,那么不用考虑这些复杂的问题了。我们所说的是单机搞不定的情况。 容错。一个节点挂了不影响应用。 实现一个实时计算系统。如果仅仅需要解决这5个问题,可 阅读全文
摘要:
JNI 工作流程 1. java层调用system.load方法。 2. 通过classloader拿到了so文件的绝对路径,然后调用nativeload()方法。 3. 通过linux下的dlopen方法,加载并查找so库里的方法。 4. 当前线程下的 JNIENV 会将所有的jni方法注册到了同 阅读全文
摘要:
1. 性能调优相关的原理讲解、经验总结; 2. 掌握一整套Spark企业级性能调优解决方案;而不只是简单的一些性能调优技巧。 3. 针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表现,以及处理后的效果总结。 调优前首先要对spark的作业流程清楚: Driver 阅读全文
摘要:
1 HDFS概述 由于传统集中式的物理服务器在存储容量和数据传输速度等方面都有限制,故而越来越不符合这些数据的实际存储需要。 在大数据时代,大数据处理需要解决的首要问题是:如何高效地存储所产生的规模庞大的数据? 所以为了实现对大数据的存储,就需要利用成百上千台甚至更多的分布式服务器节点(由多磁盘存储 阅读全文
摘要:
原文链接 :https://www.cnblogs.com/stillcoolme/p/10160397.html 1 业务需求 最近做的24小时书店大数据平台中的一个需求:获取一段时间内只在晚上进店,而白天没有进店的顾客。 输入是指定的开始日期、结束日期、夜出开始时间(nightTimeS)、夜出 阅读全文
摘要:
1. 编译环境准备 Jdk:1.7.0_x Maven : 3.3.9 hbase: cdh5.4.2 release 2. 用idea打开项目 使用git clone得到HBase源码。打开git: 将HBase项目拉取到本地: 拉取完毕之后,在idea的命令窗口,使用命令 git checkou 阅读全文
摘要:
原理 要想理解 Java 反射,首先要弄清类的加载过程。 比如这行代码 。 我们想要创建一个 Person 对象,并用 p 作为对象的引用。 在 Java 虚拟机会先执行类的加载,然后才生成对象(分配内存空间)。 在类的加载过程中,类加载器负责把类编译好的 class (字节码)文件加入到内存中,并 阅读全文
摘要:
编程能力 对于增加程序的灵活性方面,一个是通过依赖注入的方式,一个是通过配置的方式。 1. 配置key value形式的参数,读取成一个map,然后key对应的value是具体的类路径,能实现反射获取相应的实现类。 软件设计就是一个不断抽象的过程。 —— 搜索之路 1. 写程序的时候就是抽象得到类的 阅读全文
摘要:
看了一下kafka,然后写了消费Kafka数据的代码。感觉自己功力还是不够。 1. 不能随心所欲地操作数据,数据结构没学好,spark的RDD操作没学好。 2. 不能很好地组织代码结构,设计模式没学好,面向对象思想理解不够成熟。 消费程序特点 1. 用队列来存储要消费的数据。 2. 用队列来存储要提 阅读全文
摘要:
kafka是一个分布式的、分区化、可复制提交的发布订阅消息系统 传统的消息传递方法包括两种: 排队:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。 发布 订阅:在这个模型中,消息被广播给所有的用户。 kafka与传统的消息传递技术相比优势之处在于: 快速:单一的Kafka代理 阅读全文
摘要:
spark集群与phoenix进行数据请求时报错: 发现是phoenix的bug。 具体参考: https://issues.apache.org/jira/browse/PHOENIX 2599 阅读全文