SMS, APM, ITSM, SIEM, NMS, DBMS 등 끊임없이 진화하는 브레인즈컴퍼니 동료들의 솔직담백한 이야기를 들어보세요.
퇴근을 준비하는 어느 날, 부장님이 갑자기 요청합니다.
“내일까지 서버관리 전반 현황 보고해야 되니 준비 부탁할게! 그럼 고생하고 낼 보자고”
어떤 내용들로 자료를 준비해야 하는 걸까요?
이번에는 Zenius SMS를 활용한 서버관리현황 파악에 대해 살펴보겠습니다.
서버관리 현황 파악의 포인트
1. 얼마나 많은 대상을 관리하고 있으며 종류는 어떤 것이 있는가?
2. 관리가 필요한 주요 성능지표 항목은 어떤 것이 있는가?
3. 주요 성능지표 관련해 현재 상태는 어떠한가?
4. 이슈가 존재하는 서버의 현황과 어떤 이슈를 가지고 있는가?
5. 어떻게 필요한 자료를 쉽고 빨리 확보해 보고할 것인가?
6. 향후 지속적으로 제공 가능한 범위인가?(내일까지 해야 하는데….)
7. 추가적인 요청사항에 대한 대응이 가능한가?
상기 사항들 모두 중요하지만, 그 중에서도 “지속적으로 제공 및 관리가 가능한가?”라는 부분에 집중해야 합니다. 아무리 훌륭한 자료라도 자료구성을 위해 과도한 공수가 발생하는 자료는 사실상 향후 지속적인 관리측면에서 실효성을 상실하게 돼 1회성 보고자료로 끝나게 되는게 현실입니다. 실제 업무에 필요한 자료는 지속적인 관리가 가능해야만 합니다.
Zenius로 1분 만에 서버현황 보고자료 정리하기
Step 1. 기본 데이터 취득(10초)
Step 2. 현황정보 정리(10초)
저희가 운영하는 대상은Total 12대입니다. OS 별로 Linux 6, Solaris 1, AIX 1, HPUX 1, Window 3 관리 운영 중에 있습니다.
Step 3. 주요 성능지표의 상태정리(20초)
먼저 서버(OS) 측면의 주요 성능지표에 대해 알아보도록 하겠습니다. 정보시스템 성능관리 지침에서는 서버 성능관리의 목적을 아래와 같이 정의하고 있습니다.
“서버 성능관리 업무는 최적의 용량을 적시에 확보하기 위한 용량계획의 시점을 제공하고 성능 관련 문제를 사전에 예방함으로써, 사용자의 시스템 활용도 및 만족도를 향상시키기 위하여 수행된다.”
또한 정보시스템 성능관리 지침에서 서버의 주요 성능관리 구성요소는 아래와 같이 정의하고 있습니다.
구성요소
내용
CPU
총 CPU사용률, 시스템 모드 사용률, 사용자 모드 사용률, Run Queue, Pri Queue, 사용자수 등
메모리
총 메모리 사용률, 시스템 및 버퍼 캐쉬, Page In/Out, Swap 공간 사용률 등
디스크
Disk 사용률, Disk I/O Busy, Disk Queue
프로세스
CPU를 집중적으로 사용하는 프로세스, Zombie 프로세스
커널
커널 파라미터 설정을 통한 자원의 적절한 분배
파일시스템
파일시스템 IO Rate, 파일시스템 공간 사용률
네트워크 I/O
In 패킷률, Out 패킷률, Collision률, Error률
CPU 사용률(%)
서버의 성능을 의미하는 척도로 사용되는 항목으로 CPU의 사용률이 일정 이상을 넘어가면 서비스에 영향을 주기 시작합니다. 순간적으로 급격히 높아질 수 있기 때문에 일반적으로 임계값과 지속시간을 함께 지정해 감시합니다. *여기서 CPU란? Central Processing Unit의 약자로 명령을 해독하고 산술논리연산이나 데이터 처리를 실행하는 장치입니다.
Memory 사용률(%)
메모리의 사용량이 너무 빨리 소모되거나 또는 지속적으로 사용량이 떨어지지 않는다면 조치가 필요한 부분입니다. *여기서 Memory란? 기억소자를 지칭하는 것으로 보다 빠른 처리를 위한 프로그램 또는 데이터를 저장하거나 계산된 결과를 임시 또는 반영구적으로 보관하는 기억장치입니다.
Disk I/O Busy Rate(%)
Disk의 경우 데이터 처리 속도가 메모리나 CPU에 비해 너무 느리기 때문에 Disk I/O Busy Rate의 경우 일정 임계치 이상 지속되는 경우 과다한 입출력이 발생시킴을 의미하며 시스템 성능에 영향을 줄 수 있습니다. *여기서 Disk I/O란? Disk의 입출력 양을 의미합니다.
이제 기본 취득 데이터 기준 주요 성능지표를 정리해 보겠습니다.
저희가 운영하는 서버 중 CPU 사용률은 다음과 같으며, CPU 사용률이 가장 높은 대상은 Cent7x64 장비입니다. 전일 기준 Peak 치가 59% 정도이며 현재 36%정도의 사용률을 보입니다.
Memory 사용률 현황은 다음과 같으며, Memory 사용률이 가장 높은 대상은 Solaris11 장비 입니다. 전일 기준 Peak 치가 97% 정도이며 현재도 96%정도의 사용률을 보입니다. 해당 장비의 경우 상세분석 진행 예정입니다.
Disk I/O Busy Rate 기준으로 모니터링이 필요한 대상은 다음과 같으며 현재 전반 양호한 상태입니다. 가장 높은 대상은 Zenius6.1 장비입니다. 현재 37% 정도를 보이고 있으며 한시적 증가로 요소가 존재하는 상태입니다.
저장장치 사용률(%)
저장장치 사용률의 경우 시스템 전체의 사용률보다는 파티션 별 사용률 관점에서 정리가 필요합니다. 95% 이상 사용중인 파티션 영역이 존재하고, AIX72-ORA, Suse11-x64, Solaris11 장비의 경우 현재 조치 진행 중이며 용량증설 계획도 함께 고려하고 있습니다.
Step 4. 이슈사항 정리(20초)
전체관리대상 중 긴급 1건, 위험 4건, 주위 4건의 이슈가 발생해 있는 상태이며 등급 별 상세내역은 다음과 같습니다. 이슈 발생 후 지속시간 2일 이상 지속중인 항목들은 단기 조치 불가 항목으로 조치방안에 대해 논의중인 항목입니다.
이상으로 Zenius를 활용해 1분만에 서버현황 보고자료를 구성해봤습니다.
그럼 이제 다음과 같이 보고를 진행했을 때 추가적으로 유입될 수 있는 요청사항을 Zenius SMS를 활용해 대응해보겠습니다.
Zenius SMS를 활용해 추가 요청사항 대응하기
Q. CPU 사용률 높은 장비의 CPU 추이는 어떤가요? 전반 추이와 전일 대비 사용률을 확인해볼 필요가 있습니다.
A. 해당장비의 CPU 사용률 추이는 다음과 같으며 전일대비 비교 했을 때 거의 유사한 범위내에 사용률 추이를 보여주고 있습니다. 3단계의 임계라인 기준으로 감시를 수행하고 있습니다.
Q. 특정 파티션의 파일시스템 사용률이 높은 장비의 타 파티션의 사용률은 얼마나 되나요? 저장장치 사용률 추이도 함께 검토가 필요해보입니다.
A. /nshome40 96% 이외 /home 파티션도 사용률이 90% 이상인 상태입니다. 사용률 추이를 확인했을 때 급격한 증가는 발생하지 않는 상태입니다.
Technical Consulting팀에서 제품(Zenius)의 구축과 기술지원/컨설팅을 총괄하고 있습니다.