什么是服务网格?

原创于 2025-07-14 14:53:51 发布 · 420 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#java

Spring 专栏收录该内容

95 篇文章

订阅专栏

服务网格（Service Mesh）是微服务架构中专门处理服务间通信的基础设施层，其核心目标是解决大规模微服务集群中服务通信的可靠性、安全性、可观测性和流量管控问题。它通过将服务通信逻辑从业务代码中剥离，实现“通信与业务解耦”，让开发者专注于业务逻辑，运维团队专注于通信层的管理。

一、服务网格的核心问题：为什么需要它？

在微服务架构中，随着服务数量激增（可能成百上千），服务间通信会面临一系列挑战：

网络不可靠：分布式环境中，网络延迟、丢包、服务宕机等问题频发，需要重试、超时控制。
流量管理复杂：需要动态路由（如A/B测试、灰度发布）、负载均衡、熔断、限流等策略。
可观测性差：难以追踪跨服务调用链路、监控各服务的通信指标（延迟、错误率）。
安全性问题：服务间通信需要加密（如mTLS）、身份认证、权限控制。
技术栈碎片化：不同服务可能用不同语言开发（Java、Go、Python等），传统的“侵入式SDK”（如Java的Spring Cloud组件）难以统一管理。

服务网格的出现，正是为了将这些跨服务的通用需求标准化、集中化，避免每个服务重复实现。

二、服务网格的核心架构：数据平面 + 控制平面

服务网格的架构遵循**“数据平面（Data Plane）”与“控制平面（Control Plane）”分离**的设计，这是其核心特点。

组件	作用	核心实现
数据平面	处理实际的服务间流量（转发、监控、加密、限流等），是流量的“执行层”。	由部署在每个服务旁的Sidecar代理组成（如Envoy、Linkerd2-proxy）。
控制平面	不直接处理流量，负责配置和管理数据平面（定义规则、下发策略），是“决策层”。	集中式管理组件（如Istio的Pilot、Galley）。

1. 数据平面：Sidecar代理是核心

Sidecar模式：每个服务实例旁都会部署一个轻量级代理（Sidecar，意为“边车”），服务的所有入站/出站流量必须经过Sidecar（通过网络拦截技术实现，如iptables、CNI插件）。
- 例：服务A调用服务B时，流量路径为：服务A → A的Sidecar → B的Sidecar → 服务B（返回路径相反）。
Sidecar的核心功能：
- 流量转发：根据控制平面的规则（如路由、负载均衡）转发请求。
- 流量治理：实现熔断、限流、重试、超时控制等。
- 可观测性：收集通信 metrics（延迟、QPS、错误率）、日志、分布式追踪数据。
- 安全：实现服务间mTLS（双向TLS）加密、身份认证、权限校验。

2. 控制平面：集中化的“指挥官”

控制平面不直接处理流量，而是通过API或配置中心向数据平面的Sidecar下发规则，统一管理整个集群的通信策略。
核心功能：
- 规则配置：定义路由规则（如“将10%流量路由到新版本服务”）、负载均衡策略（如轮询、权重）、安全策略（如mTLS启用）等。
- 服务发现：对接注册中心（如K8s、Consul），向Sidecar同步服务地址列表。
- 全局监控：汇总所有Sidecar的metrics，提供集群级别的通信视角。

三、服务网格的工作原理：一次服务调用的完整流程

以“服务A调用服务B”为例，服务网格的工作流程如下：

流量拦截：
服务A发起的请求被其本地Sidecar（如Envoy）拦截（通过iptables或应用层代理），不会直接发送到服务B。
Sidecar转发决策：
A的Sidecar向控制平面查询“调用服务B的规则”（如目标版本、超时时间、是否需要加密），控制平面返回最新配置。
流量处理：
A的Sidecar根据规则处理请求：
- 加密：用mTLS对请求加密（若启用安全策略）。
- 路由：根据规则转发到服务B的指定实例（如灰度发布中仅转发10%流量到v2版本）。
- 限流/熔断：若服务B负载过高，A的Sidecar直接执行限流（返回错误）。
目标服务接收：
请求到达服务B的Sidecar，B的Sidecar解密请求、验证身份（如权限校验），再转发给服务B处理。
响应与监控：
服务B的响应经B的Sidecar、A的Sidecar返回给服务A；同时，两侧Sidecar会记录本次调用的指标（延迟、状态码）并上报给控制平面。

四、服务网格的核心功能

服务网格通过数据平面和控制平面的协同，提供以下关键能力：

功能分类	具体能力
流量管理	动态路由（基于权重、Header的路由）、负载均衡（轮询、最少连接）、熔断、限流、重试、超时控制、灰度发布/蓝绿部署。
可观测性	metrics（通信延迟、错误率、吞吐量）、分布式追踪（Jaeger/Zipkin集成）、访问日志（记录所有请求详情）。
安全	mTLS加密（服务间通信加密）、身份认证（基于SPIFFE ID）、授权（控制哪些服务可调用目标服务）。
服务发现	对接K8s、Consul等注册中心，自动同步服务实例地址，更新Sidecar的转发列表。

五、服务网格的优势

解耦业务与通信逻辑：
服务开发者无需在代码中实现熔断、加密、监控等功能（传统方案需引入SDK，如Java的Resilience4j），专注业务逻辑；通信逻辑由Sidecar统一实现，降低跨团队协作成本。
跨语言兼容：
无论服务用Java、Go、Python还是Node.js开发，只要部署了Sidecar，就能享受服务网格的所有功能（传统SDK需为每种语言开发适配版本）。
集中化管理：
控制平面提供统一的配置入口（如Istio的Dashboard），运维人员可动态调整流量策略（如紧急限流、切换路由），无需重启服务。
标准化通信层：
避免不同团队重复开发通信工具，统一技术标准（如统一用Envoy处理流量，统一用Prometheus收集metrics）。

六、典型服务网格产品

目前主流的服务网格产品均基于“数据平面+控制平面”架构，核心差异在于功能丰富度、性能和易用性：

产品	特点
Istio	最流行的服务网格，功能全面（流量管理、安全、可观测性均支持），数据平面基于Envoy，控制平面组件丰富（Pilot、Galley等），适合大规模复杂场景，但资源开销较高。
Linkerd	轻量级服务网格，性能优于Istio（原生Rust实现代理），专注核心功能（流量管理、可观测性），部署和运维简单，适合对性能敏感的场景。
Consul Connect	与Consul注册中心深度集成，支持服务发现+服务网格一体化，适合已使用Consul的团队，功能相对精简。
AWS App Mesh	云厂商托管的服务网格，与AWS生态（ECS、EKS）无缝集成，无需自建控制平面，适合AWS用户。