Kafka的入门及安装使用

一：推文

二：Kafka架构原理

（一）Kafka应用场景

Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

主要应用场景是：日志收集系统和消息系统。

（二）Kafka集群系统

Kafka是一个分布式集群，内部有很多server组成，这些server称为blocker（中间商），blocker管理数据时，会对数据进行分区操作。

因为一个Kafka集群会对很多子系统进行服务，不同子系统发送的消息需要进行区分，则可以通过topics主题进行区分。而每一个topic中的消息都会进行分区，例如：partition1、partition2.....通过分区可以进行负载均衡。将各个分区可以放入到不同的server中，可以进行负载均衡。

注意：一个生产者可以在topics中设置多个分区，例如producer 1

1：kafka是一个分布式的消息缓存系统
2：kafka集群中的服务器都叫做broker
3：kafka有两类客户端，一类叫producer（消息生产者），一类叫做consumer（消息消费者），客户端和broker服务器之间采用tcp协议连接
4：kafka中不同业务系统的消息可以通过topic进行区分，而且每一个消息topic都会被分区，以分担消息读写的负载
5：每一个分区都可以有多个副本，以防止数据的丢失
6：某一个分区中的数据如果需要更新，都必须通过该分区所有副本中的leader来更新
7：消费者可以分组，比如有两个消费者组A和B，共同消费一个topic：order_info,A和B所消费的消息不会重复
比如 order_info 中有100个消息，每个消息有一个id,编号从0-99，那么，如果A组消费0-49号，B组就消费50-99号
8：消费者在具体消费某个topic中的消息时，可以指定起始偏移量（例如：在消费某个消息时，中途故障，那么下一次可以指定起始偏移量，接着之前的数据下载）

三：Kafka安装

（一）需要提前安装zookeeper，进行集群协调

（二）集群安装

1、解压
2、修改server.properties
broker.id=1　　注意：每一个节点的id都应该唯一
zookeeper.connect=hadoopH5:2181,hadoopH6:2181,hadoopH7:2181

3、将zookeeper集群启动

4、在每一台节点上启动broker
bin/kafka-server-start.sh config/server.properties

补充：在4中，启动集群以后，可以使用zookeeper进行节点查看

补充：可以使用 1>/dev/null 2>&1 &将进程启动的标准输出定义到null中，不进行输出，把标准错误同样输出到null.最后使用&可以后台启动

zkCli.sh
ls /brokers/ids

启动进程查看：

（三）在集群中创建topic

5、在kafka集群中创建一个topic
bin/kafka-topics.sh --create --zookeeper hadoopH5:2181 --replication-factor 3 --partitions 1 --topic order

注意：副本数不能大于启动节点数。我们这里启动3节点，所有设置副本3.分区1（分区越少，顺序性越强）

可以使用 bin/kafka-topics.sh --list --zookeeper hadoopH5:2181来查看集群topic

（四）使用生产者向Kafka的topic写入消息

6、用一个producer向某一个topic中写入消息
bin/kafka-console-producer.sh --broker-list hadoopH5:9092 --topic order

开启后，每输入一行数据，就是一个消息。

（五）使用消费者进行消息读取

7、用一个comsumer从某一个topic中读取信息
bin/kafka-console-consumer.sh --zookeeper hadoopH5:2181 --from-beginning --topic order

生产和消费都是同步的。from-beginning设置偏移量从头开始，即读取全部消息。若是不设置，则从当前时刻开始读取消息

（六）分区状态查看

8、查看一个topic的分区及副本状态信息
bin/kafka-topics.sh --describe --zookeeper hadoopH5:2181 --topic order

总体信息：Topic:order     PartitionCount:1        ReplicationFactor:3     Configs:
详细信息：Topic: order    Partition: 0 分区号   Leader: 2  2号blocker是leader     Replicas: 2,3,1 副本所在blocker位置 Isr: 2,3,1

四：Kafka客户端编写

（一）编写生产者

package cn.storm.kafka;

import java.util.Properties;

import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;

public class ProducerDemo {

    public static void main(String[] args) throws InterruptedException {
        Properties props = new Properties();
        props.put("zk.connect", "hadoopH5:2181,hadoopH6:2181,hadoopH7:2181");    //指定zookeeper集群信息
        props.put("metadata.broker.list", "hadoopH5:9092,hadoopH6:9092,hadoopH7:9092");    //指定broker集群信息
        props.put("serializer.class","kafka.serializer.StringEncoder");    //设置消息编码类型，同下面泛型中参数一致
        ProducerConfig config = new ProducerConfig(props);
        Producer<String, String> producer = new Producer<String, String>(config);    //泛型指定了topics和消息类型
        
        //发送业务消息
        //1.读取文件    2.读取内存数据库    3.读取socket端口数据
        for(int i=1;i<=1000;i++) {
            Thread.sleep(500);//休眠半秒
            producer.send(new KeyedMessage<String, String>("order", "client send message: "+i+" times"));
        }
    }

}

（二）消费者客户端编写

package cn.storm.kafka;

import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;

import kafka.consumer.Consumer;
import kafka.consumer.ConsumerConfig;
import kafka.consumer.KafkaStream;
import kafka.javaapi.consumer.ConsumerConnector;
import kafka.message.MessageAndMetadata;

public class ConsumerDemo {
    private static final String topic = "order";    //设置topic
    private static final Integer threads = 1;    //设置线程数
    
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("zookeeper.connect", "hadoopH5:2181,hadoopH6:2181,hadoopH7:2181");
        props.put("group.id", "11");     //设置组id
        props.put("auto.offset.reset", "smallest");    //偏移量重新设置，从头开始
        
        ConsumerConfig config = new ConsumerConfig(props);
        ConsumerConnector consumer = Consumer.createJavaConsumerConnector(config);
        Map<String,Integer> topicCountMap =new HashMap<String, Integer>();
        topicCountMap.put(topic, threads);    //可以添加多个topic主题进行查询
        
        Map<String,List<KafkaStream<byte[], byte[]>>> consumerMap = consumer.createMessageStreams(topicCountMap);    //获取的消息流也是Map类型（含多个，按topic区分）
        List<KafkaStream<byte[], byte[]>> streams= consumerMap.get(topic);    //获取一个topic的消息流，消息流可能含有多个分区partition
        
        //获取消息流，是阻塞式的
        for(final KafkaStream<byte[], byte[]> kafkaStream: streams) {
            new Thread(new Runnable() {        //每一个分区，我们采用一个线程处理，互不干扰

                @Override
                public void run() {
                    for(MessageAndMetadata<byte[], byte[]> mm:kafkaStream) {
                        String msg = new String(mm.message());
                        System.out.println(msg);
                    }
                }
            }).start();
        }
    }
}

五：Kafka和storm联合使用

（一）需要引入storm-kafka对应的jar包

（二）注意：导入Kafka的lib中jar包时，不要导入zookeeper的jar包，不然会和我们自己安装的zookeeper冲突

（三）代码编写

1.WordSplitBolt

package cn.storm.stormkafka;

import org.apache.commons.lang.StringUtils;

import backtype.storm.topology.BasicOutputCollector;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseBasicBolt;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Tuple;
import backtype.storm.tuple.Values;

public class WordSplitBolt extends BaseBasicBolt{

    @Override
    public void execute(Tuple tuple, BasicOutputCollector collector) {
        String line = tuple.getString(0);    //获取一行数据
        String[] words=line.split(" ");
        for(String word:words) {
            word = word.trim();    //去除两边空格
            if(StringUtils.isNotBlank(word)) {
                word = word.toLowerCase();    //转小写
                collector.emit(new Values(word));
            }
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("word"));
    }

}

2.WordWriteBolt

package cn.storm.stormkafka;

import java.io.FileWriter;
import java.io.IOException;
import java.util.Map;
import java.util.UUID;

import backtype.storm.task.TopologyContext;
import backtype.storm.topology.BasicOutputCollector;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseBasicBolt;
import backtype.storm.tuple.Tuple;

public class WordWriteBolt extends BaseBasicBolt{
    private FileWriter fw = null;
    
    @Override
    public void prepare(Map stormConf, TopologyContext context) {
        try {
            fw = new FileWriter("E:\\storm-kafka\\"+"wordcount"+UUID.randomUUID());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    
    
    @Override
    public void execute(Tuple tuple, BasicOutputCollector controller) {
        String word = tuple.getString(0);
        try {
            fw.write(word);
            fw.write("\n");
            fw.flush();     //从内存刷新到文件中
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer arg0) {
        // TODO Auto-generated method stub
        
    }

}

3.KafkaTopo

package cn.storm.stormkafka;

import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.generated.AlreadyAliveException;
import backtype.storm.generated.InvalidTopologyException;
import backtype.storm.spout.SchemeAsMultiScheme;
import backtype.storm.topology.TopologyBuilder;
import backtype.storm.tuple.Fields;
import storm.kafka.BrokerHosts;
import storm.kafka.KafkaSpout;
import storm.kafka.SpoutConfig;
import storm.kafka.ZkHosts;

public class KafkaTopo {
    public static void main(String[] args) throws AlreadyAliveException, InvalidTopologyException {
        String topic = "order";        //设置topic
        String zkRoot = "/kafka-storm";    //storm是消费者，在zookeeper集群中（zookeeper根目录/kafka-storm)记录一些消费信息，例如topic、数据所在broker
        String spoutId = "KafkaSpout";    //设置spoutID
        BrokerHosts brokerHosts = new ZkHosts("hadoopH5:2181,hadoopH6:2181,hadoopH7:2181");//指定zookeeper集群信息，从中获取broker主机信息
        SpoutConfig spoutconf = new SpoutConfig(brokerHosts, topic, zkRoot, spoutId);//将配置信息封装到SpoutConfig中
        spoutconf.forceFromStart=true;//设置读取数据偏移量
        /*
         * scheme:将kafka传到spout里的数据格式进行转化. record->tuple
         * mapper:将storm传到kafka的数据格式进行转化.tuple->record
         */
        spoutconf.scheme = new SchemeAsMultiScheme(new MessageScheme());    //配置消息格式，自定义类
        
        TopologyBuilder builder = new TopologyBuilder();
        //设置一个spout用来从kaflka消息队列中读取数据并发送给下一级的bolt组件，此处用的spout组件并非自定义的，而是storm中已经开发好的KafkaSpout
        builder.setSpout(spoutId, new KafkaSpout(spoutconf));    //读取到Kafka消息，放入到之前配置文件中指定的spoutid中的spout
        
        builder.setBolt("wordsplit", new WordSplitBolt(),4).shuffleGrouping(spoutId);
        builder.setBolt("wordwrite", new WordWriteBolt(),4).fieldsGrouping("wordsplit",new Fields("word"));
        
        Config conf = new Config();
        conf.setNumAckers(0);
        conf.setNumWorkers(4);
        conf.setDebug(false);
        
        //LocalCluster用来将topology提交到本地模拟器运行，方便开发调试
        LocalCluster cluster = new LocalCluster();
        cluster.submitTopology("WordCount", conf, builder.createTopology());
        
        //提交topology到storm集群中运行
        //StormSubmitter.submitTopology("WordCount", conf, builder.createTopology());
    }
}

4.MessageScheme

package cn.storm.stormkafka;

import java.io.UnsupportedEncodingException;
import java.util.List;

import backtype.storm.spout.Scheme;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;

public class MessageScheme implements Scheme {

    /**
     * 创建一个类的时候如果需要实现 java.io.Serializable 接口的时候，往往需要设置 serialVersionUID。
     */
    private static final long serialVersionUID = 6417356846166053480L;

    @Override    //进行反序列化操作
    public List<Object> deserialize(byte[] bytes) {
        try {
            String msg=new String(bytes,"UTF-8");
            return new Values(msg);    //从kafka中获取数据后，返回tuple类型给spout
        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return null;
    }

    @Override
    public Fields getOutputFields() {
        return new Fields("msg");
    }

}

（四）如果上传到服务器运行，调试问题

https://www.jianshu.com/p/70c3a7f56386

（五）本地运行

posted @ 2020-03-07 15:35 山上有风景阅读(597) 评论(0) 编辑收藏举报

刷新页面返回顶部

山上有风景

周围的人都比你厉害，你才会慢慢变强

Kafka的入门及安装使用

一：推文

Kafka学习之路（一）Kafka的简介

Kafka学习之路（二）Kafka的架构

Kafka学习之路（三）Kafka的高可用

Kafka学习之路（四）Kafka的安装

Kafka学习之路（五）Kafka在zookeeper中的存储

二：Kafka架构原理

（一）Kafka应用场景

（二）Kafka集群系统

注意：一个生产者可以在topics中设置多个分区，例如producer 1

三：Kafka安装

（一）需要提前安装zookeeper，进行集群协调

（二）集群安装

补充：在4中，启动集群以后，可以使用zookeeper进行节点查看

补充：可以使用 1>/dev/null 2>&1 &将进程启动的标准输出定义到null中，不进行输出，把标准错误同样输出到null.最后使用&可以后台启动

启动进程查看：

（三）在集群中创建topic

（四）使用生产者向Kafka的topic写入消息

开启后，每输入一行数据，就是一个消息。

（五）使用消费者进行消息读取

生产和消费都是同步的。from-beginning设置偏移量从头开始，即读取全部消息。若是不设置，则从当前时刻开始读取消息

（六）分区状态查看

四：Kafka客户端编写

（一）编写生产者

（二）消费者客户端编写

五：Kafka和storm联合使用

（一）需要引入storm-kafka对应的jar包

（二）注意：导入Kafka的lib中jar包时，不要导入zookeeper的jar包，不然会和我们自己安装的zookeeper冲突

（三）代码编写

1.WordSplitBolt

2.WordWriteBolt

3.KafkaTopo

4.MessageScheme

（四）如果上传到服务器运行，调试问题

（五）本地运行

公告

山上有风景

周围的人都比你厉害，你才会慢慢变强

Kafka的入门及安装使用

一：推文

Kafka学习之路 （一）Kafka的简介

Kafka学习之路 （二）Kafka的架构

Kafka学习之路 （三）Kafka的高可用

Kafka学习之路 （四）Kafka的安装

Kafka学习之路 （五）Kafka在zookeeper中的存储

二：Kafka架构原理

（一）Kafka应用场景

（二）Kafka集群系统

注意：一个生产者可以在topics中设置多个分区，例如producer 1

三：Kafka安装

（一）需要提前安装zookeeper，进行集群协调

（二）集群安装

补充：在4中，启动集群以后，可以使用zookeeper进行节点查看

补充：可以使用 1>/dev/null 2>&1 &将进程启动的标准输出定义到null中，不进行输出，把标准错误同样输出到null.最后使用&可以后台启动

启动进程查看：

（三）在集群中创建topic

（四）使用生产者向Kafka的topic写入消息

开启后，每输入一行数据，就是一个消息。

（五）使用消费者进行消息读取

生产和消费都是同步的。from-beginning设置偏移量从头开始，即读取全部消息。若是不设置，则从当前时刻开始读取消息

（六）分区状态查看

四：Kafka客户端编写

（一）编写生产者

（二）消费者客户端编写

五：Kafka和storm联合使用

（一）需要引入storm-kafka对应的jar包

（二）注意：导入Kafka的lib中jar包时，不要导入zookeeper的jar包，不然会和我们自己安装的zookeeper冲突

（三）代码编写

1.WordSplitBolt

2.WordWriteBolt

3.KafkaTopo

4.MessageScheme

（四）如果上传到服务器运行，调试问题

（五）本地运行

公告

Kafka学习之路（一）Kafka的简介

Kafka学习之路（二）Kafka的架构

Kafka学习之路（三）Kafka的高可用

Kafka学习之路（四）Kafka的安装

Kafka学习之路（五）Kafka在zookeeper中的存储