Node 장애 시 statefulset으로 배포된 Pod 복구방안
페이지 정보
본문
* Platform Version : Redhat OpenShift 3.9
OpenShift Node 장애 시 statefulset Pod 복구방안
node 장애 시 pod가 unknown, terminating 상태가 지속될 경우 복구방법은 아래와 같은데,
1. The Node object is deleted (either by you, or by the Node Controller).
2. The kubelet on the unresponsive Node starts responding, kills the Pod and removes the entry from the apiserver.
3. Force deletion of the Pod by the user.
> 참고 링크
- https://kubernetes.io/docs/tasks/run-application/force-delete-stateful-set-pod/
그 중 권장방법은 1, 2번이라고 문서에 나와있는데,
Q1) pod 복구를 해야할 상황 시 어떤 절차를 수행하면 될까요?
Q2) 서버 기동중인 상태에서 pod가 unkown 상태 시 체크해야될 부분이 있을까요?
Q3) 1번 (노드 삭제 후 추가) 시에 작업 절차 방법은 어떻게 될까요?
---
Q1) pod 복구를 해야할 상황 시 어떤 절차를 수행하면 될까요?
A1) node가 완전히 down 되어 복구가 불가능한 상황이거나, 네트워크에서 영구적으로 제거된 상황일 경우, pod 삭제보단 노드 삭제를 권고드립니다.
만약 노드가 다시 복구 되었다면 일반적으로 kubelet 이 해당 pod를 kill 하게 되고 apiserver 로 부터 해당 name을 삭제하면 됩니다.
노드가 복구되었음에도 pod가 terminating 혹은 unknown 상태가 유지가 되어있다면 다음과 같은 방법으로 pod event 및 로그를 봐야합니다.
Q2) 서버 기동중인 상태에서 pod가 unkown 상태 시 체크해야될 부분이 있을까요?
A2) 아래와 같은 명령으로, 파드의 event 및 로그를 체크해야 합니다.
$ oc get event
$ oc logs <pod name>
Q3) 1번 (노드 삭제 후 추가) 시에 작업 절차 방법은 어떻게 될까요?
$ oc delete node <node name>
노드 추가 방법
https://docs.openshift.com/container-platform/3.9/install_config/adding_hosts_to_existing_cluster.html#adding-cluster-hosts_adding-hosts-to-cluster
OpenShift Node 장애 시 statefulset Pod 복구방안
node 장애 시 pod가 unknown, terminating 상태가 지속될 경우 복구방법은 아래와 같은데,
1. The Node object is deleted (either by you, or by the Node Controller).
2. The kubelet on the unresponsive Node starts responding, kills the Pod and removes the entry from the apiserver.
3. Force deletion of the Pod by the user.
> 참고 링크
- https://kubernetes.io/docs/tasks/run-application/force-delete-stateful-set-pod/
그 중 권장방법은 1, 2번이라고 문서에 나와있는데,
Q1) pod 복구를 해야할 상황 시 어떤 절차를 수행하면 될까요?
Q2) 서버 기동중인 상태에서 pod가 unkown 상태 시 체크해야될 부분이 있을까요?
Q3) 1번 (노드 삭제 후 추가) 시에 작업 절차 방법은 어떻게 될까요?
---
Q1) pod 복구를 해야할 상황 시 어떤 절차를 수행하면 될까요?
A1) node가 완전히 down 되어 복구가 불가능한 상황이거나, 네트워크에서 영구적으로 제거된 상황일 경우, pod 삭제보단 노드 삭제를 권고드립니다.
만약 노드가 다시 복구 되었다면 일반적으로 kubelet 이 해당 pod를 kill 하게 되고 apiserver 로 부터 해당 name을 삭제하면 됩니다.
노드가 복구되었음에도 pod가 terminating 혹은 unknown 상태가 유지가 되어있다면 다음과 같은 방법으로 pod event 및 로그를 봐야합니다.
Q2) 서버 기동중인 상태에서 pod가 unkown 상태 시 체크해야될 부분이 있을까요?
A2) 아래와 같은 명령으로, 파드의 event 및 로그를 체크해야 합니다.
$ oc get event
$ oc logs <pod name>
Q3) 1번 (노드 삭제 후 추가) 시에 작업 절차 방법은 어떻게 될까요?
$ oc delete node <node name>
노드 추가 방법
https://docs.openshift.com/container-platform/3.9/install_config/adding_hosts_to_existing_cluster.html#adding-cluster-hosts_adding-hosts-to-cluster
- 이전글pv 생성 방법 20.10.20
- 다음글OpenShift Pod 삭제 시 hang 발생 처리 20.10.20
댓글목록
등록된 댓글이 없습니다.