规范流程与意外巧合：源站裁切服务迁移故障记-CSDN博客

小D所在业务要从公司独立出去，部分业务和域名需要从公司拆分出去。小D领到了一个任务：迁移源站的多媒体裁切服务（CropSrv）。

上图是一个典型的互联网CDN接入和分发流程，以小D公司为例：

时间紧，任务重，小O通过以下命令下载了裁切服务的镜像

docker save -o crop_service.v1.tar   hub.aaa.com/crop_service:v1

然后推送到新公司的hub上

docker load <  crop_service.v1.tar
docker tag crop_service:v1 hub.bbb.com/crop_service:v1
docker push  hub.bbb.com/crop_service:v1

然后直接部署在了K8S上，迁移直接就结束了。测试功能正常没有问题。

业务独立运行一个月后：

操作结束，Pod重建，小O看了一眼自己的CropSrv服务，没什么问题

结果群里就炸了，图片请求不到了

故障描述

源站裁切服务故障致APP白屏

公司的容器模型是这样的：

这样设计是为了保证任何情况下服务都能正常启动。

容器内下载配置文件示意图

结果，小D进到容器内发现服务没有启动。

服务没有启动为什么Pod还是Running呢？

容器内进程树

容器内的进程模型如上，1号进程为supervisor 。对于K8S来说只要supervisor不失败Pod就会一直是Running状态。前提是不开启健康检查。

巧了，这个服务没有开启健康检查。服务启动就Crash，然后被supervisor拉起，再crash，如此往复：

那服务为什么没有启动呢？

发现原因后，小D立刻制作了一份带配置文件的新镜像，重新部署紧急恢复了

FROM hub.bbb.com/crop_service:v1
COPY conf/ /app/crop_service/conf

故障的时候总是各种巧合都撞在一起：

结果故障就是这样发生了~解决巧合只能靠规范化的流程和不偷懒的实践~

记录那些年我们一起处理过的故障～

公众号：小O小D