2018 年 12月随笔档案 - 吹静静

大数据练习题

摘要：1.NIO与BIO相比，具有哪方面的优势？（1）非阻塞：提高传输效率（2）一对多连接：可以用一个或者少量的服务器中的线程来处理大量对的请求从而节省服务器的内存资源（3）即使是已经建立连接，只要没有对应的读写事件，那么依然不能够使用服务器来进行处理（4）利用通道来实现双向传输（5）因为利用缓阅读全文

posted @ 2018-12-20 19:46 吹静静阅读(1594) 评论(0) 推荐(0) 编辑

Linux下的Mysql安装 & 配置

摘要：Hive的数据，是存在HDFS里的。此外，hive有哪些数据库，每个数据库有哪些表，这样的信息称之为hive的元数据信息。元数据信息不存在HDFS里。而是存在关系型数据库里，hive默认用的是derby数据库来存储。即hive工作时，除了要依赖Hadoop，还要依赖关系型数据库。注意：虽然我们能阅读全文

posted @ 2018-12-20 17:28 吹静静阅读(1971) 评论(0) 推荐(0) 编辑

Hive 的基本概念

摘要：Hadoop开发存在的问题只能用java语言开发，如果是c语言或其他语言的程序员用Hadoop，存在语言门槛。需要对Hadoop底层原理，api比较了解才能做开发。 Hive概述 Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，可以将阅读全文

posted @ 2018-12-20 15:56 吹静静阅读(752) 评论(0) 推荐(1) 编辑

Flume的Channel

摘要：一、Memory Channel 事件将被存储在内存中（指定大小的队列里）非常适合那些需要高吞吐量且允许数据丢失的场景下属性说明：二、JDBC Channel 事件会被持久化（存储）到可靠的数据库里，目前支持嵌入式Derby数据库。即source=》channel=》sink。在传输的过程中，阅读全文

posted @ 2018-12-20 15:40 吹静静阅读(1192) 评论(0) 推荐(1) 编辑

Flume的Sink

摘要：一、Logger Sink 记录指定级别（比如INFO，DEBUG，ERROR等）的日志，通常用于调试要求，在 --conf（-c )参数指定的目录下有log4j的配置文件根据设计，logger sink将体内容限制为16字节，从而避免屏幕充斥着过多的内容。如果想要查看调试的完整内容，那么你应该阅读全文

posted @ 2018-12-20 14:59 吹静静阅读(3880) 评论(0) 推荐(0) 编辑

Flume的Source

摘要：source学习网址： http://flume.apache.org/FlumeUserGuide.html 一、Avro 类型的Source 监听Avro 端口来接收外部avro客户端的事件流。和netcat不同的是，avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继阅读全文

posted @ 2018-12-20 14:25 吹静静阅读(867) 评论(0) 推荐(0) 编辑

Flume 安装和配置

摘要：安装步骤 1.安装jdk，1.6版本以上 2.上传flume的安装包 3.解压安装 4.在conf目录下，创建一个配置文件，比如：template.conf（名字可以不固定,后缀也可以不固定） 5.配置agent组件相关配置： 6.根据指定的配置文件，来启动flume 进入flume的bin目录阅读全文

posted @ 2018-12-20 10:03 吹静静阅读(1035) 评论(0) 推荐(0) 编辑

Flume的基本概念

摘要：Flume 概念 Flume 最早是Cludera提供的日志收集系统，后贡献给Apache。所以目前是Apache下的项目，Flume支持在日志系统中指定各类数据发送方，用于收集数据。 Flume 是一个高可用的，高可靠的，鲁棒性（robust健壮性），分布式的海量日志采集、聚合和传输的系统，Flu 阅读全文

posted @ 2018-12-20 09:55 吹静静阅读(2373) 评论(1) 推荐(0) 编辑

BIO & NIO & NIO常见框架

摘要：BIO & NIO BIO - Blocking IO - 同步式阻塞式IO UDP/TCP NIO - New IO - 同步式非阻塞式IO AIO - AsynchronousIO - 异步式非阻塞式IO - jdk1.8 BIO的缺点： 1.会产生阻塞行为 receive/accept/con 阅读全文

posted @ 2018-12-15 16:34 吹静静阅读(437) 评论(0) 推荐(0) 编辑

hadoop MapReduce —— 输出每个单词所对应的文件

摘要：下面是四个文件及其内容。代码实现： Driver：结果：阅读全文

posted @ 2018-12-15 10:51 吹静静阅读(435) 评论(0) 推荐(0) 编辑

数据库练习题：学生表(学号,姓名，性别，系部，年龄)选课表(学号，课程号，成绩)课程表(课程号,课程名,学分)

摘要：数据库中有如下三个表: 学生表(学号,姓名，性别，系部，年龄)选课表(学号，课程号，成绩)课程表(课程号,课程名,学分) (1)、写出创建以上三个表的sq语句 (2)、从选课表中查询所有选课信息，即学号、课程号、成绩,并给成绩加8分 (3)、从选课表中查询选修课程号C02且该]课程考试及格的学生的学阅读全文

posted @ 2018-12-15 09:59 吹静静阅读(9842) 评论(0) 推荐(0) 编辑

hadoop 伪分布式安装

摘要：0. 关闭防火墙重启后失效 service iptables start ;#立即开启防火墙，但是重启后失效。 service iptables stop ;#立即关闭防火墙，但是重启后失效。重启后生效 chkconfig iptables on ;#开启防火墙，重启后生效 chkconfig 阅读全文

posted @ 2018-12-13 19:35 吹静静阅读(246) 评论(0) 推荐(0) 编辑

Zookeeper的集群安装

摘要：Zookeeper的集群安装关闭防火墙安装jdk 下载Zookeeper的安装包解压Zookeeper的安装包进入Zookeeper的安装目录中conf目录将zoo_sample.cfg复制为zoo.cfg 编辑zoo.cfg,修改dataDir属性： dataDir=/home/soft 阅读全文

posted @ 2018-12-13 18:56 吹静静阅读(194) 评论(0) 推荐(0) 编辑

hadoop 完全分布式安装

摘要：一个完全的hadoop分布式安装至少需要3个zookeeper，3个journalnode，3个datanode，2个namenode组成。也就是说需要11个节点，但是我云主机有限，只有3个，所以把很多节点搭在了同一个服务器上。步骤： 1.关闭防火墙 service iptables stop 阅读全文

posted @ 2018-12-13 18:54 吹静静阅读(386) 评论(0) 推荐(0) 编辑

Zookeeper面试题

摘要：Zookeeper概述 Zookeeper是开源的分布式的协调服务框架，是Apache Hadoop的子件，适用于绝大部分分布式集群的管理。分布式引发问题：死锁：至少有一个线程占用了资源，但是不占用CPU 活锁：所有线程都没有把持资源，但是线程却是在不断地调度占用CPU 需要引入一个管理节点为阅读全文

posted @ 2018-12-06 19:47 吹静静阅读(619) 评论(0) 推荐(0) 编辑

Redis缓存机制

摘要：Redis介绍 Redis是一款内存高速缓存数据库；数据模型为：key - value，非关系型数据库使用的存储数据的格式；可持久化：将内存数据在写入之后按照一定格式存储在磁盘文件中，宕机、断电后可以重启redis时读取磁盘中文件恢复缓存数据；分布式：当前任务被多个节点切分处理，叫做分布式处理阅读全文

posted @ 2018-12-06 11:07 吹静静阅读(66107) 评论(0) 推荐(1) 编辑

脑裂的产生和解决

摘要：什么是脑裂通俗来讲就是一个黑帮中出现了两个老大，所谓一山不容二虎，就造成了领导混乱。我们拿ZooKeeper集群来讲一下脑裂是如何产生的。首先，我们有一个集群，集群里只有一个leader 但是此时由于网络波动，使得一部分服务器脱离了集群，形成了一个小的集群，此时群龙无首，他们就会选举出一个新的阅读全文

posted @ 2018-12-06 10:03 吹静静阅读(5695) 评论(0) 推荐(0) 编辑

Concurrent包详解及使用场景

摘要：Concurrent包是jdk1.5所提供的一个针对高并发进行编程的包。 1.阻塞式队列 - BlockingQueue 遵循先进先出（FIFO）的原则。阻塞式队列本身使用的时候是需要指定界限的。在生产者消费者模型中，生产数据和消费数据的速率不一致，如果生产数据速度快一些，消费(处理)不过来，就会阅读全文

posted @ 2018-12-05 19:41 吹静静阅读(4569) 评论(0) 推荐(0) 编辑

红黑树的修正过程

摘要：红黑树的由来二叉搜索树是个很好的数据结构，可以快速地找到一个给定关键字的数据项，并且可以快速地插入和删除数据项。但是二叉搜索树有个很麻烦的问题，如果树中插入的是随机数据，则执行效果很好，但如果插入的是有序或者逆序的数据，那么二叉搜索树的执行速度就变得很慢。因为当插入数值有序时，二叉树就是非平衡的阅读全文

posted @ 2018-12-04 18:59 吹静静阅读(1308) 评论(0) 推荐(0) 编辑

吹静静

欢迎QQ交流：592590682

搜索

常用链接

我的标签

随笔分类 (440)

随笔档案 (421)

文章分类 (69)

阅读排行榜

评论排行榜

推荐排行榜

最新评论