SMS, APM, ITSM, SIEM, NMS, DBMS 등 끊임없이 진화하는 브레인즈컴퍼니 동료들의 솔직담백한 이야기를 들어보세요.
현대 IT 인프라에서 네트워크는 모든 데이터의 흐름을 책임지는 중추적인 역할을 담당합니다. 네트워크 장비가 제대로 작동하지 않는다면, 서비스의 중단이나 성능 저하 문제로 이어질 수 있어 비즈니스의 연속성에 큰 영향을 미치는 요인이 되는데요.
이러한 문제를 예방하기 위해서는 네트워크 장비의 상태를 면밀히 모니터링하고, 이상 징후를 신속히 파악하는 것이 중요합니다. 그렇다면 어떤 네트워크 성능 지표를 확인해야 잠재적인 문제를 예측할 수 있을까요?
│bps, pps : 데이터 속도와 트래픽 측정 단위
먼저 네트워크 성능 모니터링에서 기본적으로 활용되는 지표로는 bps와 pps가 있습니다.
BPS와 bps는 초당 처리된 트래픽의 Byte와 bit입니다. BPS는 Byte per second의 약자로 초당 처리된 Byte를 말하며, 소문자로 표기된 bps는 bit per second의 약자로 초당 처리된 bit를 말합니다. Byte와 bit 중 더 큰 단위인 Byte를 사용하는 Byte per second가 주로 대문자로 표기됩니다.
pps는 packet per second의 약자로 초당 처리된 패킷의 수입니다. 패킷의 크기는 최소 64 Byte에서 1,500 Byte까지도 될 수 있는데요. 그 이유는 하나의 패킷 내에 얼마나 큰 용량의 데이터가 담겨있느냐에 따라 1 패킷의 크기는 달라지기 때문입니다.
bps와 pps는 데이터 전송량을 측정하는 지표로 네트워크 병목 현상이나 성능 저하가 발생했을 때 기본적인 원인 분석에 활용됩니다. 예를 들어 bps가 높다면 대역폭 문제를, pps가 높으면 네트워크 장비의 패킷 처리 능력을 의심해 볼 수 있습니다. 또한 두 지표의 트래픽 패턴을 분석하여 보안 위협을 조기에 발견할 수 있어, 네트워크 모니터링의 기본 지표로 활용됩니다.
│Discard, Error : 네트워크 장비 장애인지와 밀접한 지표
다음으로 Discard와 Error는 네트워크에서 발생하는 장애를 분석하는 데 중요한 지표입니다.
Discard는 네트워크 장비가 자원 관리와 트래픽 조절을 위해 의도적으로 발생시키는 값입니다. 즉 네트워크 장비의 트래픽 과부하, 큐 오버플로우, QoS 정책 등으로 인해 일부 패킷이 우선순위에 따라 의도적으로 버려지는 경우입니다. 이렇게 패킷을 의도적으로 버리는 이유는 버퍼와 같이 장비에 한정된 자원을 보호하기 위한 조치입니다.
Error는 패킷이 손상되거나 잘못된 데이터로 인해 발생하는 오류입니다. 주로 물리적 연결 문제, 신호 간섭 CRC 오류 등 하드웨어 결함으로 인해 나타납니다. Error는 네트워크 안정성에 치명적일 수 있기 때문에, 발생 원인을 신속히 파악하고 물리적 문제를 해결하는 것이 중요합니다.
│네트워크 핵심 지표를 효과적으로 확인하는 방법
앞서 설명한 BPS, bps, pps, Discard, Error와 같은 성능 지표를 통해 네트워크 관리자들은 문제 상황을 감지할 수 있습니다. 그러나 어느 지표에서 이상이 발생했는지, 그리고 여러 네트워크 장비 중 어떤 장비에 장애가 발생했는지를 신속하게 파악하는 것은 쉽지 않습니다.
이러한 이유로 많은 기업이 네트워크의 성능과 전체 상태를 직관적으로 파악할 수 있는 NMS(Network Management System) 도입을 검토하고 있는데요.
NMS는 BPS, bps, pps, Discard, Error 등 주요 성능 지표는 물론, 네트워크 장비의 운영 현황을 다양한 뷰(View)를 통해 직관적으로 제공합니다. 또한 임계치 기반의 장애 감시 정책 설정과 다양한 분석 기능을 통해 장애 상황을 신속하게 감지하고 조치를 취할 수 있습니다.
[그림1] Zenius NMS 전체 요약 View
[그림2] 인터페이스 In/Out bps Top5
대표적인 예시로 Zenius NMS를 통해 살펴본다면, 전체 요약 View에서는 가장 높은 트래픽을 유발하는 인터페이스 및 장비별 In/Out BPS Top5를 제공해 네트워크 관리자들이 해당 장비와 인터페이스를 빠르게 식별할 수 있습니다. 이 외에도 자원 사용 현황, 점검 필요 여부, 이벤트 현황 등 네트워크 자원의 운영 상황을 한 화면에서 모니터링할 수 있어 관제의 효율성을 높일 수 있습니다.
[그림3] 개별장비별 상세 요약 View
각 장비별 상세 요약 View에서는 인터페이스별 Up/Down 상태를 포트 색상과 점멸 효과로 직관적으로 확인할 수 있는데요. 트래픽이 몰리는 양에 따라 점멸이 빠르게 일어나 인터페이스가 원활하게 운영되는지 쉽게 파악할 수 있습니다. 또한 각 인터페이스의 성능 현황을 리스트 형식으로 확인할 수 있습니다. 성능 항목명을 클릭해 Top/Bottom 순으로 정렬할 수 있어 사용자 필요에 따라 유연하게 활용할 수 있습니다.
[그림4] 감시 정책 설정 및 Zenius 스마트 진단
Zenius NMS는 감시 정책 설정을 통해 효과적인 장애 감지 기능을 제공하는데요. 이벤트를 감시할 시간, 요일, 심각도, 임계치 설정하여 정의된 항목에 따라 이벤트를 감시할 수 있습니다.
송수신 bps·pps, CPU·Mem 사용률, Discard, Error 같은 항목 이외에도 다양한 성능 항목을 감시할 수 있습니다. 특히 Discard와 Error 같은 주요 항목은 장비에 관련 감시설정이 등록되어 있지 않다면, 스마트 진단 기능을 통해 별도 설정 없이도 자동으로 감지 및 통보됩니다. 이러한 효과적인 장애 감지 기능은 네트워크 운영의 안정성을 크게 높여줍니다.
[그림5] Topology Map
마지막으로 토폴로지 맵(Topology Map)에서는 네트워크 트래픽을 기반으로 IT 자원 간의 연결 상태와 운영 현황을 시각화합니다. 색상과 점멸 효과로 이벤트 발생 장비를 즉시 파악할 수 있으며, 트래픽 흐름을 통해 병목 구간을 효과적으로 모니터링할 수 있습니다.
이번 시간에는 네트워크 안정성을 위해 확인해야 하는 주요 성능 지표와 NMS 솔루션을 활용한 효과적인 모니터링 방법을 알아보았습니다. 빠른 장애 감지와 안정성 강화를 지원하는 Zenius NMS와 같은 네트워크 관리 솔루션을 통해 네트워크를 안정적으로 관리하시기 바랍니다!
Zenius에 대한 제품소개, 홍보자료 제작, 제안서 작성과 같은 다양한 업무를 수행하고 있습니다.