클라우드 모니터링, 서버 모니터링, DB 모니터링, 네트워크 관리, 웹 애플리케이션 성능 모니터링, 통합로그관리, ITSM을 단일 플랫폼에서 관리, 브레인즈컴퍼니의 소식을 전합니다.
“서비스가 먹통이어서 확인 좀 해야 하는데 서버가 엄청 버벅거리고 반응이 느려요!!
이거 왜 이러죠??”
왜!! 도대체 왜!!
한 번쯤은 겪어보았을 급작스러운 Linux 서버의 상태 이슈!
불행하게도 무척이나 다양한 원인으로 인해 발생하게 됩니다.
우리의 목표는 이 다양한 원인 중 실제 발생 원인을 빠르게 특정하는 것!
기본적인 항목들의 체크리스트를 통해 빠르게 원인을 파악 해 봅시다.
Zenius를 통한 데이터 추이 분석!!
장애의 발생은 순식간에 일어나지만, 장애 발생 시점의 데이터만을 확인해서는
원인을 파악하기가 쉽지 않은 경우가 많습니다.
Zenius를 활용하여 앞서 정한 체크리스트를 빠르게 확인해 봅시다.
1. 서버의 CPU 부하 확인하기
Load Average는 CPU 사용 대기 중인 프로세스와 I/O 완료를 대기하고 있는 프로세스의 수를 의미합니다.
따라서, Load Average가 높다는 것은 CPU가 바쁘며 시스템에 걸리는 부하가 있다는 뜻입니다.
화면과 같이 1분, 5분, 15분의 로드 평균을 확인 해 보도록 합시다.
1분 로드 평균은 순간적으로 증가하는 경우가 있지만, 5분 15분 데이터상에도 이전과 비교하였을 때 높은 수치를 보인다면, CPU의 부하가 의심스러운 상황입니다.
그렇다면 CPU의 사용률과 I/O 대기율은 어떨까요?
user가 사용한 CPU 사용률은 일정하지만, Iowait 수치가 올라간 것을 볼 수 있습니다.
이 경우 CPU의 리소스 부족이기보다는 I/O로 인한 부하로 판단할 수 있고, 자세히는 메모리나 프로세스의 현황 확인이 필요한 경우입니다.
반대로 user 수치가 높은 경우에는 물리적인 CPU 자체의 리소스 부족이라 볼 수 있습니다.
2. BUFFER, CACHE, SWAP 상태 확인하기
메모리 사용률이 높다 = 서버에 부하가 있다?? 답은 No !!
Linux 서버의 메모리 사용률은 Buffer/Cache의 사용량이 포함되어 표현되게 됩니다.
따라서, 우리는 그 추이를 통하여 이슈를 확인하는 것이 중요합니다.
위의 검은 바탕의 그래프는 메모리 사용률이 높지만, 일정한 수치를 유지하고 있습니다.
이런 경우 서버의 메모리 사용은 안정적인 영역에서 이루어진다고 판단이 가능합니다.
그 이유는 실제 메모리 사용량과 Buffer/Cache에 할당량의 수치가 할당 가능한 수치 내에서 이루어지기 때문에 사용률이 유지된다고 볼 수 있기 때문입니다.
반면 흰 바탕의 그래프는 메모리 사용률이 점차 증가하며 결국 100%까지 도달한 것을 확인할 수 있는데요, 이경우에는 프로세스가 연산에 필요한 공간을 할당받지 못하여 프로세스 행이 발생하게 됩니다.
그렇다면 Buffer Cache Swap은 어떨까요?
먼저 Buffer Cache에 관해 확인 해 보도록 하겠습니다.
*Buffer – 메타데이터를 메모리에 저장.
*Cache – Page Cache, Slab을 메모리에 저장.
쉽게 말해, 둘 다 용도에 맞는 정보를 저장하여 수행 속도에 도움을 주는 영역입니다.
메모리 사용량이 늘어나면 이 Buffer, Cache 영역이 줄어들게 되고, 저장 영역이 줄어든다는 것은 속도가 떨어져 성능 저하로 이어지게 됩니다.
아래 그래프는 메모리 사용률이 올라가고 있는 상태의 서버 데이터입니다.
다음으로 이 시점의 Buffer, Cache의 영역을 확인해 보겠습니다.
추이 그래프를 통해 메모리 사용률이 올라갈수록 Buffer, Cache 영역이 줄어드는 것을 확인할 수 있습니다.
그렇다면 이 시점의 I/O는 어떨까요?
보시는 바와 같이 Iowait 수치가 급격히 올라갔음을 확인 할 수 있으므로,
“메모리 사용률의 상승은 Buffer, Cache 영역을 줄어들게 하여 속도 저하를 발생시킨다.”
라는 결론을 도출할 수 있습니다.
또한, 메모리 사용률의 상승은 Swap에도 영향을 끼치게 됩니다.
*Swap – 디스크 공간에 할당하여 메모리 역할로 사용하는 공간.
따라서, Swap 영역의 사용은 실제 메모리가 아닌 디스크를 사용하기 때문에 속도 저하가 발생 됩니다.
위 그래프는 Swap 사용률이 증가하고 있는 서버의 데이터입니다.
이 시점의 디스크의 상태를 보면 Read와 Write가 점차 Swap과 동일하게 상승하는 것을 볼 수 있습니다.
이렇게 메모리 대신 디스크 영역을 사용하면서 속도가 저하하게 되는 것입니다.
- Mount Point 별 디스크 사용량, 작업량 추이 확인
디스크의 여유 공간이 없으면 시스템이 파일 생성을 못 하게 되고 결국엔 서버의 운영에 영향을 끼치게 됩니다.
디스크의 사용량이 급작스럽게 늘어난 경우는 신규 파일이 업로드되었다거나,
로그파일이 급작스럽게 많이 쌓이는 경우가 있습니다.
그렇기에 각 Mount Point의 사용률을 확인하고 해당 지점의 이슈 사항을 파악하는 것이 가장 좋습니다.
위 그래프와 같이 1시간 이내에 /data 지점의 사용률이 급등하였다면, 해당 지점에 쌓이는 데이터나 로그파일이 급격하게 증가한 것이므로 확인이 필요합니다.
다음으로는 디스크 사용 추이를 확인 해 보도록 하겠습니다.
서버에서 사용하는 물리 디스크는 각각의 성능의 한계가 있습니다.
이 한계를 직관적으로 확인할 수 있는 데이터로는 Disk Busy Rate(작업률)와 Disk Wait Rate(대기율)이 있는데요,
Read 및 Write의 양이 한계치까지 치솟게 된다면 Busy Rate 값이 증가하게 되고,
이에 따른 Wait Rate 가 늘어나면서 서버의 성능 저하를 불러오게 됩니다.
어떻게 관리해야 할까?
앞서 확인한 서버의 상태 이슈들, 물론 급작스럽게 발생하는 경우는 어쩔 수 없지만
미리 대비가 가능한 것들은 Zenius-EMS를 이용하여 임계치 기반의 사전 모니터링과,
모니터링 페이지를 통한 직관적인 관리가 가능합니다.
각각의 항목들에 세부적으로 단계별 임계치를 걸어서 서버의 상태 이슈를 사전에 인지하고,
요약 페이지를 통해 빠르게 상태를 파악하여 우리의 퇴근 시간을 사수해 보는 건 어떨까요?
신규 프로젝트 구축사업과 정규 유지보수 업무를 수행하고 있습니다.