快速删除 Rancher 中失败的 Pod 资源

问题描述
#

在 Rancher 管理的 Kubernetes 集群中，有时会出现副本集中的 Pod 部署失败的情况。如下图所示，失败的 Pod 数量可能达到上千个，手动逐一删除非常耗时。

解决方案
#

批量删除失败的 Pod
#

使用 kubectl 命令批量删除状态为 MatchNodeSelector 的失败 Pod：

IFS='
'

for i in `kubectl get po --all-namespaces | grep -i 'MatchNodeSelector'`; do
    kubectl delete po `echo $i | awk '{print $2}'` -n `echo $i | awk '{print $1}'`
done

命令说明：

kubectl get po --all-namespaces：获取所有命名空间中的 Pod
grep -i 'MatchNodeSelector'：筛选出状态为 MatchNodeSelector 的 Pod
awk '{print $2}'：提取 Pod 名称
awk '{print $1}'：提取命名空间名称
kubectl delete po：删除指定的 Pod

执行结果
#

其他常见失败状态
#

除了 MatchNodeSelector 外，还可以根据需要删除其他状态的失败 Pod：

删除 ImagePullBackOff 状态的 Pod
#

for i in `kubectl get po --all-namespaces | grep -i 'ImagePullBackOff'`; do
    kubectl delete po `echo $i | awk '{print $2}'` -n `echo $i | awk '{print $1}'`
done

删除 CrashLoopBackOff 状态的 Pod
#

for i in `kubectl get po --all-namespaces | grep -i 'CrashLoopBackOff'`; do
    kubectl delete po `echo $i | awk '{print $2}'` -n `echo $i | awk '{print $1}'`
done

删除 Pending 状态的 Pod
#

for i in `kubectl get po --all-namespaces | grep -i 'Pending'`; do
    kubectl delete po `echo $i | awk '{print $2}'` -n `echo $i | awk '{print $1}'`
done