kafka|大数据|Scala|Java——kafka的安装及使用

前言花絮

今天听了kafka开发成员之一的饶军老师的讲座，讲述了kafka的前生今世。干货的东西倒是没那么容易整理出来，还得刷一遍视频整理，不过两个比较八卦的问题，倒是很容易记住了。
Q：为什么kafka使用了Scala进行开发？
A：因为当年主R正在学习Scala，所以就用Scala开发了。并且这是他的第一个Scala项目。也正是因为他也在学习阶段，所以写出来的代码都是按照Java的写法实现的，这也是为什么Java开发者也能很容易读懂源码的原因。
Q：为什么kafka叫kafka？
A：因为主R在开发kafka的时候正在看卡夫卡的《变形记》，所以没有多想就用了kafka这个名字。同时，因为kafka实际上是以日志的形式记录消息的，属于一个书写者，所以用一位作家的名字命名也是很契合的。

思考：大佬们开发东西真随意。

先来说下kafka是个什么东西，它是一个消息中间件框架，只负责发布--订阅（帮忙存东西的）

接着给大家看一张大致的kafka流程图

首先打个比方，kafka好比就是中央电视台，而中央电视台下面有很多节目，生产者就是制作节目的团队，而消费者就是我们观看这个节目的人，一开始在zookeeper创建一个节目，假设就叫cctv1，有了这个节目名后，我们就得请一个团队来填充这个节目，比如拉广告啊，放电视剧之类的数据，而我们消费者要观看这个节目的话就得需要zookeeper来授权给我们。中央电视台则只是存数据的，相当于一个中间人，和现在中介差不多个意思。

1. 下载kafka的安装包到电脑上并传输到Linux中的hadoop用户下

2. 将这个压缩包解压到hadoop用户的opt目录下

接着就会在opt目录下看到这个文件夹(/opt：这是给主机额外安装软件所摆放的目录。比如你安装一个ORACLE数据库就可以放到这个目录下。默认是空的。)

3. 进入到该目录下 /home/hadoop/opt/kafka_2.11-1.1.0/config目录，将 zookeeper.properties 中的信息筛选出来并将筛选出来的数据给一个新建的文件zk.properties

#把非注释行信息筛选出来

接着vi zk.properties这个文件，修改dataDir，将来zookeeper的信息都记录在这个目录下，即dataDir=/home/hadoop/zk/

4. 启动zookeeper

要在该/home/hadoop/opt/kafka_2.11-1.1.0目录下启动

./bin/zookeeper-server-start.sh config/zk.properties

接着我们复制该窗口，jps一下，就会看到新开的服务QuorumPeerMain（仲裁的一个机制的东西），这个东西就是zookeeper的进程

#jps 用于查看当前服务器中的java进程，类似于ps -ef | grep java，不同之处是它是由jdk提供的，可以输出JVM中运行的进程状态信息，因此它也可以用于jvm的监控和调优

5. 启动broker（kafka）

我们这个是单机模式：

进入该目录/home/hadoop/opt/kafka_2.11-1.1.0/config，和上面一样，将一个文件的数据重定向到另一个新目录，将带有#注释的代码去掉

cat server.properties | grep -v '#' >>kafka1.properties

然后启动kafka，要在bin目录下，和上面一样

./bin/kafka-server-start.sh config/kafka1.properties

启动了后，jps一下，就会发现启动了一个名叫Kafka的进程，说明我们已经启动成功了

6. 创建一个主题

这里相当于中央电视台创建了一个叫cctv1的节目

还是在/home/hadoop/opt/kafka_2.11-1.1.0目录下启动创建

sh ./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic cctv1 #创建到 zookeeper上地址是localhost:2181，cctv1是主题名