Kafka 如何保证不重复消费又不丢失数据？_kafka保证消息不丢失不重复消费-CSDN博客

在大数据时代，消息队列作为分布式系统中不可或缺的一部分，承担着数据传输和解耦的重要职责。Kafka 作为一款高性能、高吞吐量的消息队列系统，被广泛应用于日志收集、监控数据聚合、流处理等多个领域。然而，在实际应用中，如何保证消息的不重复消费且不丢失数据，成为了一个重要的问题。本文将深入探讨 Kafka 在这两个方面的机制和策略，并结合具体案例进行分析。

消息不重复消费

1. 消费者组与偏移量管理

Kafka 中的消息消费主要通过消费者组（Consumer Group）来实现。每个消费者组可以有多个消费者实例，这些实例共同消费同一个主题（Topic）下的消息。为了确保消息不被重复消费，Kafka 引入了偏移量（Offset）的概念。

偏移量：每个消息在分区（Partition）中都有一个唯一的偏移量。消费者在消费消息后，会将当前消费的偏移量提交给 Kafka 集群，以便下次从该偏移量继续消费。
自动提交与手动提交：Kafka 支持两种偏移量提交方式：
- 自动提交：消费者定期自动提交偏移量，默认时间为 5 秒。这种方式简单易用，但可能会导致消息的重复消费，因为如果消费者在提交偏移量之前崩溃，那么重启后的消费者会从上次提交的偏移量重新开始消费。
- 手动提交：消费者在代码中显式地提交偏移量。这种方式更加灵活，可以精确控制偏移量的提交时机，从而避免消息的重复消费。

2. 恰好一次语义（Exactly Once Semantics, EOS）

Kafka 2.0 版本引入了恰好一次语义（Exactly Once Semantics, EOS），这是解决消息重复消费问题的关键机制。EOS 通过事务性生产（Transactional Produce）和事务性消费（Transactional Consume）来实现：

事务性生产：生产者可以将一组消息作为一个事务提交，确保这些消息要么全部成功写入 Kafka，要么全部失败。
事务性消费：消费者可以将消息的消费和结果的处理打包成一个事务，确保消息的消费和处理结果的一致性。

3. 实践案例

假设我们有一个电商系统，需要确保订单消息不被重复处理。我们可以使用事务性消费来实现这一目标：

Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "order-processing-group");
props.put("enable.auto.commit", "false");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put