Kafka系列之如何提高消费者消费速度

原创

已于 2024-07-22 16:37:40 修改 · 3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #分布式

于 2024-07-22 16:17:17 首次发布

前言

在实际开发过程中，如果使用Kafka处理超大数据量(千万级、亿级)的场景，Kafka消费者的消费速度可能决定系统性能瓶颈。

实现方案

为了提高消费者的消费速度，我们可以采取以下措施：

将主题的分区数量增大，如 20，通过concurrency将消费者的消费线程数增大到 10（2个pod)，提高消息处理的并发能力。
将每次批量拉取消息的数量max.poll.records增大到 500，提高单次处理消息的数量。
将消息切分成批次，将单个批次的数据处理业务逻辑放进线程池中异步进行，提高并发处理消息的速度。
将异步线程池的拒绝模式调整为 CallerRunsPolicy，这个配置非常重要。当线程池的任务队列已满且所有线程都在忙碌时，新的任务将由提交任务的线程（即调用者线程）来执行。否则在消息量特别大的情况下，很可能会因为线程池任务队列满了而丢失数据。
将异步线程池的队列容量设置为 0，这样意味着所有任务必须立即由线程池中的线程来处理，减少在队列中的等待时间。
在数据上报的时候进行幂等性验证，防止重复上报数据。

@Component
public class OrderConsumer {
   
   

	@Resource(name = "execThreadPool")
    private ThreadPoolTaskExecutor execThreadPool;
    
	@KafkaListener(
            id = "record_consumer",
            topics = "record"