阿里超大规模 Flink 集群运维体系介绍

本文介绍了阿里实时计算从2013年至今的三个发展阶段,以及在超大规模Flink集群运维中面临的稳定性、应用运维等挑战。文章详细阐述了如何通过SLA可用率来衡量集群稳定性,打造Flink Cluster异常自愈服务,以及应对双11大促的压测、限流、降级、热点机器管理策略。同时,提出了Flink Job Adviser和Operator用于诊断和修复作业异常,以及运维体系的云原生化演进方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要内容包括:

  1. 演进历史和运维挑战

  2. 集群运维 Flink Cluster

  3. 应用运维 Flink Job

一、演进历史和运维挑战

阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代:

  • 1.0 时代:2013 年到 2017 年,三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。

  • 2.0 时代:2017 年集团合并了三大实时计算引擎,Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的 4 年里,集团所有实时计算业务全部迁移到 Blink,阿里的实时计算业务经历了最飞速的增长,平台规模体量也从千级别增长到万级别,实时计算 all on Blink。

  • 3.0 时代:随着前两年阿里收购了德国 Flink 母公司,阿里中国和德国团队联手打造了基于云原生新底座、搭载 Flink 开源新引擎的 VVP 新平台。在 2021 年双 11,VVP 新平台以大幅度的性能提升平稳支撑了双 11,宣告着阿里实时计算进入了全新的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

米朵儿技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值