一、生命周期配置
lifecycle:postStart: # 容创建完成后执行的动作,不能保证该操作一定在容器的 command 之前执行,一般不使用exec: # 可以是 exec / httpGet / tcpSocketcommand:- sh- -c- 'mkdir /data'preStop: # 在容器停止前执行的动作httpGet: # 发送一个 http 请求path: /port: 80exec: # 执行一个命令command:- sh- -c- sleep 9
postStart
钩子
-
目的:在容器创建完成后执行的动作。需要注意的是,
postStart
钩子不能保证在容器的command
之前执行,因此一般不推荐使用它来作为初始化容器的唯一手段(对于初始化容器,Kubernetes 提供了专门的initContainers
)。 -
类型:在这个配置中,
postStart
钩子使用了exec
类型,即执行一个命令。 -
命令:该钩子执行的命令是
sh -c 'mkdir /data'
,这会在容器的文件系统中创建一个名为/data
的目录。
preStop
钩子
-
目的:在容器停止前执行的动作。这通常用于优雅地关闭应用,比如通知应用即将停止,以便应用可以完成一些清理工作。
-
类型:在这个配置中,
preStop
钩子同时定义了httpGet
和exec
两种类型,但实际上在 Kubernetes 配置中,preStop
钩子只能使用其中一种类型(这里可能是一个配置错误或者示例的混淆)。-
httpGet
:这个配置尝试发送一个 HTTP 请求到容器的 80 端口,路径为/
。这通常用于通知运行在应用内的服务即将停止。然而,由于preStop
钩子同时定义了exec
,这个httpGet
配置可能会被忽略。 -
exec
:如果httpGet
被忽略,exec
将执行sh -c sleep 9
命令。这会使容器在停止前暂停 9 秒,为应用提供一些时间来优雅地关闭。
-
二、Pod 退出流程
(1)删除请求发送
- 用户通过 kubectl delete pod 命令或者通过 Kubernetes API 发送删除 Pod 的请求。
- Kubernetes 控制平面接收到删除请求后,会开始处理该请求。
(2)Pod 状态更新
- Kubernetes 会将 Pod 的状态更新为 “Terminating”,表示 Pod 正在被终止。
- 此时,Pod 将不再接收新的请求,但已经到达 Pod 的请求仍然会被处理,直到 Pod 完全关闭。
(3)Termination Grace Period(终止优雅期)
- 在 Pod 被标记为 “Terminating” 状态后,Kubernetes 会启动 Termination Grace Period(终止优雅期)。
- Termination Grace Period 是一个时间段,用于等待 Pod 中的进程进行清理和退出操作。默认情况下,Termination Grace Period 的长度为 30 秒,但可以通过 Pod 的
terminationGracePeriodSeconds
字段进行配置。
(4)发送 SIGTERM 信号
- 在 Termination Grace Period 内,Kubernetes 会向 Pod 中的主进程发送 SIGTERM 信号(15 号信号),请求进程进行优雅的退出。
- 进程收到 SIGTERM 信号后,应该根据进程的信号处理方式进行处理,如保存数据、关闭连接、释放资源等。
(5)执行 PreStop 钩子(如有)
- 如果 Pod 中定义了 PreStop 钩子,则当 Pod 被标记为 “Terminating” 状态时,会以同步的方式启动执行 PreStop 钩子。
- PreStop 钩子可以是执行一个命令、发送一个 HTTP 请求或创建一个 TCP 连接等。它允许 Pod 在完全停止之前执行一些清理工作或通知其他服务。
- 如果 PreStop 钩子的执行时间超过了 Termination Grace Period,则 Pod 会重新进入 Termination Grace Period 的倒计时,但此时会额外获得一个 2 秒的小宽限期。如果小宽限期结束后 PreStop 钩子仍未执行完成,则 Kubernetes 将强制终止 Pod。
(6)发送 SIGKILL 信号(如必要)
- 如果在 Termination Grace Period 结束之前 Pod 中的进程仍然未退出,Kubernetes 将发送 SIGKILL 信号(9 号信号)给进程,强制终止进程。
- 这意味着进程将被立即终止,无法再进行任何清理操作。因此,建议在编写容器应用程序时确保进程能够正确地处理 SIGTERM 信号,以实现优雅的退出行为。
(7)Pod 资源清理
- 当 Pod 的所有容器都被终止后,Kubelet 会请求 API Server 将此 Pod 资源宽限期设置为 0,从而完成删除操作。
- Kubernetes 会清理与 Pod 相关的所有资源,如存储卷、网络配置等。
(8)更新 Pod 状态
- 最后,Kubernetes 会将 Pod 的状态更新为 “Succeeded”(如果 Pod 成功终止)或 “Failed”(如果 Pod 意外终止)。
- 对于不再需要的 Pod,其状态最终会从 Kubernetes 集群中移除。
三、生命周期配置测试
[root@k8s-master pods]# cp nginx-demo.yaml nginx-prestop.yaml
[root@k8s-master pods]# vim nginx-prestop.yaml
[root@k8s-master pods]# cat nginx-prestop.yaml
apiVersion: v1 # a:q
kind: Pod # 资源类型
metadata: # Pod 相关的元数据,用于描述Pod的数据name: nginx-po # Pod 的名称labels: # 定义Pod的标签type: appversion: 1.0.0 # 自定义的Pod的版本namespace: 'default' # 命名空间
spec: # 期望Pod按照下面的描述信息进行创建containers: # 描述Pod中的容器- name: nginx # 容器名称image: nginx # 容器镜像imagePullPolicy: IfNotPresent # 镜像拉取策略lifecycle: # 生命周期配置postStart: # 生命周期启动时进行的操作,不一定在容器的command之前运行exec:command:- sh- -c- "echo '<h1>pre stop</h1>' > /usr/share/nginx/html/prestop.html"preStop:exec:command:- sh- -c- "sleep 50; echo 'sleep finished...' >> /usr/share/nginx/html/prestop.html"workingDir: /usr/share/nginx/html # 定义容器启动后的工作目录ports:- name: http # 端口名称containerPort: 80 # 描述容器内部暴露的端口protocol: TCP # 指定通讯协议env:- name: JVM_OPTS # 环境变量名称value: '-Xms128m -Xmx128m' # 环境变量值resources:requests: # 最少需要多少资源cpu: 100m # 限制最少使用 0.1 个 cpu 核心memory: 128Mi # 最少使用 128 Mlimits:cpu: 200m # 最多使用0.2个cpu核心memory: 256Mi # 最多使用256MrestartPolicy: OnFailure # 重启策略[root@k8s-master pods]# kubectl create -f nginx-prestop.yaml
pod/nginx-po created
[root@k8s-master pods]# kubectl get po
NAME READY STATUS RESTARTS AGE
nginx-po 1/1 Running 0 6s
遇到问题,master节点上curl不通node1上的pod,但是node2可以curl 通nod1上的pod,node1也可以curl通node1上的pod。
解决方法:k8s跨node curl 访问不通问题排查解决_curl不通elk集群-CSDN博客
Kubernetes故障篇:calico/node is not ready: BIRD is not ready - CoderTL - 博客园
查看路由配置:iptables -L -n
排查问题时,发现是calico没有成功启动。
查看描述文件:
# 查看描述信息,然后搜索解决方案
[root@k8s-master pods]# kubectl describe po calico-node-qmpn8 -n kube-systemWarning Unhealthy 5m2s kubelet Readiness probe failed: calico/node is not ready: BIRD is not ready: Error querying BIRD: unable to connect to BIRDv4 socket: dial unix /var/run/bird/bird.ctl: connect: no such file or directoryWarning Unhealthy 5m (x2 over 5m1s) kubelet Readiness probe failed: calico/node is not ready: BIRD is not ready: Error querying BIRD: unable to connect to BIRDv4 socket: dial unix /var/run/calico/bird.ctl: connect: connection refusedWarning Unhealthy 4m53s kubelet Readiness probe failed: 2025-01-03 17:52:26.135 [INFO][212] confd/health.go 180: Number of node(s) with BGP peering established = 0
calico/node is not ready: BIRD is not ready: BGP not established with 192.168.129.132,192.168.129.133Warning Unhealthy 4m43s kubelet Readiness probe failed: 2025-01-03 17:52:36.159 [INFO][253] confd/health.go 180: Number of node(s) with BGP peering established = 0
calico/node is not ready: BIRD is not ready: BGP not established with 192.168.129.132,192.168.129.133
解决方法:Kubernetes故障篇:calico/node is not ready: BIRD is not ready - CoderTL - 博客园
[root@k8s-master cni]# vim calico.yaml # 添加如下内容
# Cluster type to identify the deployment type
- name: IP_AUTODETECTION_METHOD #增加内容value: "interface=ens*" 或者 value: "interface=ens33" #增加内容
# 下面内容是calico.yaml里默认的不修改
- name: CLUSTER_TYPEvalue: "k8s,bgp"
# Auto-detect the BGP IP address.
- name: IPvalue: "autodetect"
# Enable IPIP
- name: CALICO_IPV4POOL_IPIPvalue: "Always"# master节点部署
[root@k8s-master cni]# kubectl apply -f calico.yaml [root@k8s-master cni]# kubectl get po -n kube-system -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
calico-kube-controllers-cd8566cf-66hdp 1/1 Running 5 (12m ago) 5d11h 10.244.235.211 k8s-master <none> <none>
calico-node-k5vbv 0/1 Running 0 34s 192.168.129.133 k8s-node2 <none> <none>
calico-node-kl9l4 0/1 Running 0 34s 192.168.129.132 k8s-node1 <none> <none>
calico-node-pf2xb 1/1 Running 0 34s 192.168.129.131 k8s-master <none> <none>
coredns-6d8c4cb4d-jq8zl 1/1 Running 6 (12m ago) 6d1h 10.244.235.212 k8s-master <none> <none>
coredns-6d8c4cb4d-wkxbq 1/1 Running 6 (12m ago) 6d1h 10.244.235.213 k8s-master <none> <none>
etcd-k8s-master 1/1 Running 9 (12m ago) 6d1h 192.168.129.131 k8s-master <none> <none>
kube-apiserver-k8s-master 1/1 Running 9 (12m ago) 6d1h 192.168.129.131 k8s-master <none> <none>
kube-controller-manager-k8s-master 1/1 Running 9 (12m ago) 6d1h 192.168.129.131 k8s-master <none> <none>
kube-proxy-dmdpn 1/1 Running 2 (5d10h ago) 6d 192.168.129.133 k8s-node2 <none> <none>
kube-proxy-rcwxh 1/1 Running 8 (12m ago) 6d1h 192.168.129.131 k8s-master <none> <none>
kube-proxy-wmhnl 1/1 Running 2 (5d10h ago) 6d 192.168.129.132 k8s-node1 <none> <none>
kube-scheduler-k8s-master 1/1 Running 9 (12m ago) 6d1h 192.168.129.131 k8s-master <none> <none># 再次执行curl 命令,即可返回内容了
[root@k8s-master cni]# curl 10.244.36.71/prestop.html
<h1>pre stop</h1>
又遇到新的问题,之前配置过,在其他节点都可以使用kubectl命令,但是现在又突然不能使用了,造成的原因是但是配置时,将环境变量写在了.bash_profile文件中,bash_profile和bashrc的区别
- bash_profile:在用户登录时执行一次。
- .bashrc:在每次启动新的交互式shell会话时执行。
由于中途重新断开重连,所以设置的环境变量并未生效,需要重新执行source .bash_profile。另外root用户下的bash_profile和其他用户bash_profile是不一样的,是按照用户隔离的。
# 下面执行删除操作,看配置文件中指定的休眠50秒是否能够达到
# 先开启一个终端,跟踪pod实时状态
[root@k8s-master pods]# kubectl get po nginx-po -w
NAME READY STATUS RESTARTS AGE
nginx-po 1/1 Running 0 11s
nginx-po 1/1 Terminating 0 43s
nginx-po 1/1 Terminating 0 73s
nginx-po 0/1 Terminating 0 74s
nginx-po 0/1 Terminating 0 74s
nginx-po 0/1 Terminating 0 74s# 另外一个终端执行删除操作
[root@k8s-master ~]# time kubectl delete po nginx-po
pod "nginx-po" deletedreal 0m31.438s
user 0m0.052s
sys 0m0.044s# 可以看到实际命令执行只有30秒左右,并没有50秒,这是因为terminationGracePeriodSeconds的默认值为30秒# 如果在配置文件中加入terminationGracePeriodSeconds:40
# 这个 配置 和 containers同级别
# 再次执行相同的操作,会发现时间变成了40秒
[root@k8s-master pods]# kubectl get po nginx-po -w
NAME READY STATUS RESTARTS AGE
nginx-po 1/1 Running 0 4s
nginx-po 1/1 Terminating 0 7s
nginx-po 1/1 Terminating 0 48s
nginx-po 0/1 Terminating 0 49s
nginx-po 0/1 Terminating 0 49s
nginx-po 0/1 Terminating 0 49s[root@k8s-master ~]# time kubectl delete po nginx-po
pod "nginx-po" deletedreal 0m41.400s
user 0m0.045s
sys 0m0.090s