블로그

SMS, APM, ITSM, SIEM, NMS, DBMS 등 끊임없이 진화하는 브레인즈컴퍼니 동료들의 솔직담백한 이야기를 들어보세요.

 [Zenius Case#1] 내일까지 서버관리 전반 현황 부탁 할게요!

 

 

퇴근을 준비하는 어느 날, 부장님이 갑자기 요청합니다.

 

내일까지 서버관리 전반 현황 보고해야 되니 준비 부탁할게그럼 고생하고 낼 보자고

 

어떤 내용들로 자료를 준비해야 하는 걸까요?

이번에는 Zenius SMS를 활용한 서버관리현황 파악에 대해 살펴보겠습니다.

 

 

 

서버관리 현황 파악의 포인트

 

 1. 얼마나 많은 대상을 관리하고 있으며 종류는 어떤 것이 있는가

 2. 관리가 필요한 주요 성능지표 항목은 어떤 것이 있는가?

 3. 주요 성능지표 관련해 현재 상태는 어떠한가?

 4. 이슈가 존재하는 서버의 현황과 어떤 이슈를 가지고 있는가?

 5. 어떻게 필요한 자료를 쉽고 빨리 확보해 보고할 것인가?

 6. 향후 지속적으로 제공 가능한 범위인가?(내일까지 해야 하는데….)

 7. 추가적인 요청사항에 대한 대응이 가능한가?

 

상기 사항들 모두 중요하지만그 중에서도 지속적으로 제공 및 관리가 가능한가?”라는 부분에 집중해야 합니다아무리 훌륭한 자료라도 자료구성을 위해 과도한 공수가 발생하는 자료는 사실상 향후 지속적인 관리측면에서 실효성을 상실하게 돼 1회성 보고자료로 끝나게 되는게 현실입니다실제 업무에 필요한 자료는 지속적인 관리가 가능해야만 합니다.

 

 

 

Zenius로 1분 만에 서버현황 보고자료 정리하기 

 

Step 1. 기본 데이터 취득(10)

 

 제니우스(Zenius)로 1분 만에 서버현황 보고자료 정리하기 _기본 데이터 취득(10초)

 

 

 

Step 2. 현황정보 정리(10)

 

저희가 운영하는 대상은Total 12대입니다OS 별로 Linux 6, Solaris 1, AIX 1, HPUX 1, Window 3 관리 운영 중에 있습니다.

 

제니우스(Zenius)로 1분 만에 서버현황 보고자료 정리하기 _현황정보 정리

 

 

Step 3. 주요 성능지표의 상태정리(20)

먼저 서버(OS) 측면의 주요 성능지표에 대해 알아보도록 하겠습니다정보시스템 성능관리 지침에서는 서버 성능관리의 목적을 아래와 같이 정의하고 있습니다.

 

  • 서버 성능관리의 목적

서버 성능관리 업무는 최적의 용량을 적시에 확보하기 위한 용량계획의 시점을 제공하고 성능 관련 문제를 사전에 예방함으로써사용자의 시스템 활용도 및 만족도를 향상시키기 위하여 수행된다.

 

또한 정보시스템 성능관리 지침에서 서버의 주요 성능관리 구성요소는 아래와 같이 정의하고 있습니다.

 

구성요소

내용

CPU

총 CPU사용률시스템 모드 사용률사용자 모드 사용률, Run Queue, Pri Queue, 사용자수 등

메모리

총 메모리 사용률시스템 및 버퍼 캐쉬, Page In/Out, Swap 공간 사용률 

디스크

Disk 사용률, Disk I/O Busy, Disk Queue

프로세스

CPU를 집중적으로 사용하는 프로세스, Zombie 프로세스

커널

커널 파라미터 설정을 통한 자원의 적절한 분배

파일시스템

파일시스템 IO Rate, 파일시스템 공간 사용률

네트워크 I/O

In 패킷률, Out 패킷률, Collision, Error

 
해당 성능관리 구성요소 중 실제 시스템운영 시 체크가 필요한 몇 개 항목에 대해 간단히 정의하고 넘어가겠습니다.

 

CPU 사용률(%)

서버의 성능을 의미하는 척도로 사용되는 항목으로 CPU 사용률이 일정 이상을 넘어가면 서비스에 영향을 주기 시작합니다순간적으로 급격히 높아질 수 있기 때문에 일반적으로 임계값과 지속시간을 함께 지정해 감시합니다. *여기서 CPU? Central Processing Unit의 약자로 명령을 해독하고 산술논리연산이나 데이터 처리를 실행하는 장치입니다.

 

Memory 사용률(%)

메모리의 사용량이 너무 빨리 소모되거나 또는 지속적으로 사용량이 떨어지지 않는다면 조치가 필요한 부분입니다. *여기서 Memory기억소자를 지칭하는 것으로 보다 빠른 처리를 위한 프로그램 또는 데이터를 저장하거나 계산된 결과를 임시 또는 반영구적으로 보관하는 기억장치입니다.

 

Disk I/O Busy Rate(%)

Disk의 경우 데이터 처리 속도가 메모리나 CPU에 비해 너무 느리기 때문에 Disk I/O Busy Rate의 경우 일정 임계치 이상 지속되는 경우 과다한 입출력이 발생시킴을 의미하며 시스템 성능에 영향을 줄 수 있습니다. *여기서 Disk I/O? Disk 입출력 양을 의미합니다

 

이제 기본 취득 데이터 기준 주요 성능지표를 정리해 보겠습니다.

 

CPU 사용률(%)

저희가 운영하는 서버 중 CPU 사용률은 다음과 같으며CPU 사용률이 가장 높은 대상은 Cent7x64 장비입니다전일 기준 Peak 치가 59% 정도이며 현재 36%정도의 사용률을 보입니다.

 

 제니우스(Zenius)로 1분 만에 서버현황 보고자료 정리하기 _CPU 사용률

 

 

Memory 사용률(%)

Memory 사용률 현황은 다음과 같으며Memory 사용률이 가장 높은 대상은 Solaris11 장비 입니다전일 기준 Peak 치가 97% 정도이며 현재도 96%정도의 사용률을 보입니다해당 장비의 경우 상세분석 진행 예정입니다.

 

 제니우스(Zenius)로 1분 만에 서버현황 보고자료 정리하기 _Memory 사용률

 

 

Disk I/O Busy Rate(%)

Disk I/O Busy Rate 기준으로 모니터링이 필요한 대상은 다음과 같으며 현재 전반 양호한 상태입니다가장 높은 대상은 Zenius6.1 장비입니다현재 37% 정도를 보이고 있으며 한시적 증가로 요소가 존재하는 상태입니다.

 

제니우스(Zenius)로 1분 만에 서버현황 보고자료 정리하기 _Disk I/O Busy Rate

 

 

저장장치 사용률(%)

저장장치 사용률의 경우 시스템 전체의 사용률보다는 파티션 별 사용률 관점에서 정리가 필요합니다95% 이상 사용중인 파티션 영역이 존재하고, AIX72-ORA, Suse11-x64, Solaris11 장비의 경우 현재 조치 진행 중이며 용량증설 계획도 함께 고려하고 있습니다.

 

제니우스(Zenius)로 1분 만에 서버현황 보고자료 정리하기 _저장장치 사용률

 

 

 

Step 4. 이슈사항 정리(20)

 

제니우스(Zenius) 활용한 서버현황 보고서_이슈사항 정리

 

 제니우스(Zenius) 활용한 서버현황 보고서_

 

전체관리대상 중 긴급 1위험 4주위 4건의 이슈가 발생해 있는 상태이며 등급 별 상세내역은 다음과 같습니다. 이슈 발생 후 지속시간 2일 이상 지속중인 항목들은 단기 조치 불가 항목으로 조치방안에 대해 논의중인 항목입니다.

 

이상으로 Zenius를 활용해 1분만에 서버현황 보고자료를 구성해봤습니다.

 

그럼 이제 다음과 같이 보고를 진행했을 때 추가적으로 유입될 수 있는 요청사항을 Zenius SMS를 활용해 대응해보겠습니다.

 

 

 

Zenius SMS를 활용해 추가 요청사항 대응하기

 

Q. CPU 사용률 높은 장비의 CPU 추이는 어떤가요전반 추이와 전일 대비 사용률을 확인해볼 필요가 있습니다.

A. 해당장비의 CPU 사용률 추이는 다음과 같으며 전일대비 비교 했을 때 거의 유사한 범위내에 사용률 추이를 보여주고 있습니다3단계의 임계라인 기준으로 감시를 수행하고 있습니다.

 

제니우스(Zenius) SMS를 활용해 추가 요청사항 대응하기_CPU 사용률

 

Q. 특정 파티션의 파일시스템 사용률이 높은 장비의 타 파티션의 사용률은 얼마나 되나요저장장치 사용률 추이도 함께 검토가 필요해보입니다.

A. /nshome40 96% 이외 /home 파티션도 사용률이 90% 이상인 상태입니다사용률 추이를 확인했을 때 급격한 증가는 발생하지 않는 상태입니다.

 

제니우스(Zenius) SMS를 활용해 추가 요청사항 대응하기_파티션 사용률

조영수 이사 사진
조영수이사

Technical Consulting팀에서 제품(Zenius)의 구축과 기술지원/컨설팅을 총괄하고 있습니다.

추천 콘텐츠