반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
AI 인공지능
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
APM Solution
애플리케이션 관리
URL 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
기술이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
[브레인저가 알려주는 IT#1] 네트워크 관리, SNMP가 뭔가요?
카프카를 통한 로그 관리 방법
김채욱
2023.09.19
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
메모리 누수 위험있는 FinalReference 참조 분석하기
안녕하세요! 저는 개발4그룹에서 제니우스(Zenius) SIEM의 로그 관리 기능 개발을 담당하고 있는 김채욱 입니다. 제가 하고 있는 일은 실시간으로 대용량 로그 데이터를 수집하여 분석 후, 사용자에게 가치 있는 정보를 시각화하여 보여주는 일입니다.
이번 글에서 다룰 내용은
1) 그동안 로그(Log)에 대해 조사한 것과 2) 최근에 CCDAK 카프카 자격증을 딴 기념으로, 카프카(Kafka)를 이용하여 어떻게 로그 관리를 하는지
에 대해 이야기해 보겠습니다.
PART1. 로그
1. 로그의 표면적 형태
로그(Log)는 기본적으로 시스템의 일련된 동작이나 사건의 기록입니다. 시스템의 일기장과도 같죠. 로그를 통해 특정 시간에 시스템에서 ‘어떤 일’이 일어났는지 파악할 수도 있습니다. 이렇게 로그는 시간에 따른 시스템의 동작을 기록하고, 정보는 순차적으로 저장됩니다.
이처럼
로그의 핵심 개념은 ‘시간’
입니다. 순차적으로 발생된 로그를 통해 시스템의 동작을 이해하며, 일종의 생활기록부 역할을 하죠. 시스템 내에서 어떤 행동이 발생하였고, 어떤 문제가 일어났으며, 유저와의 어떤 교류가 일어났는지 모두 알 수 있습니다.
만약 시간의 개념이 없다면 어떻게 될까요? 발생한 모든 일들이 뒤섞이며, 로그 해석을 하는데 어려움이 생기겠죠.
이처럼 로그를 통해 시스템은 과거의 변화를 추적합니다. 똑같은 상황이 주어지면 항상 같은 결과를 내놓는 ‘결정론적’인 동작을 보장할 수 있죠. 로그의 중요성, 이제 조금 이해가 되실까요?
2. 로그와 카프카의 관계
자, 그렇다면! 로그(Log)와 카프카(Kafka)는 어떤 관계일까요? 우선 카프카는 분산 스트리밍 플랫폼으로서, 실시간으로 대용량의 데이터를 처리하고 전송하는데 탁월한 성능을 자랑합니다. 그 중심에는 바로 ‘로그’라는 개념이 있는데요. 좀 더 자세히 짚고 넘어가 보겠습니다.
3. 카프카에서의 로그 시스템
카프카에서의 로그 시스템은, 단순히 시스템의 에러나 이벤트를 기록하는 것만이 아닙니다. 연속된 데이터 레코드들의 스트림을 의미하며, 이를 ‘토픽(Topic)’이라는 카테고리로 구분하죠. 각 토픽은 다시 *파티션(Partition)으로 나누어, 단일 혹은 여러 서버에 분산 저장됩니다. 이렇게 분산 저장되는 로그 데이터는, 높은 내구성과 가용성을 보장합니다.
*파티션(Partition): 하드디스크를 논리적으로 나눈 구역
4. 카프카가 로그를 사용하는 이유
로그의 순차적인 특성은 카프카의 ‘핵심 아키텍처’와 깊게 연결되어 있습니다. 로그를 사용하면,
데이터의 순서를 보장할 수 있어 대용량의 데이터 스트림을 효율적
으로 처리할 수 있기 때문이죠. 데이터를 ‘영구적’으로 저장할 수 있어,
데이터 손실 위험 또한 크게 줄어
듭니다.
로그를 사용하는 또 다른 이유는 ‘장애 복구’
입니다. 서버가 장애로 인해 중단되었다가 다시 시작되면, 저장된 로그를 이용하여 이전 상태로 복구할 수 있게 되죠. 이는 ‘카프카가 높은 가용성’을 보장하는 데 중요한 요소입니다.
∴
로그 요약
로그는 단순한 시스템 메시지를 넘어 ‘데이터 스트림’의 핵심 요소로 활용됩니다. 카프카와 같은 현대의 데이터 처리 시스템은
로그의 이러한 특성을 극대화하여, 대용량의 실시간 데이터 스트림을 효율적으로 처리
할 수 있는 거죠. 로그의 중요성을 다시 한번 깨닫게 되는 순간이네요!
PART2. 카프카
로그에 이어 에 대해 설명하겠습니다. 들어가기에 앞서 가볍게 ‘구조’부터 알아가 볼까요?
1. 카프카 구조
· 브로커(Broker)
브로커는 *클러스터(Cluster) 안에 구성된 여러 서버 중 각 서버를 의미합니다. 이러한 브로커들은, 레코드 형태인 메시지 데이터의 저장과 검색 및 컨슈머에게 전달하고 관리합니다.
*클러스터(Cluster): 여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합
데이터 분배와 중복성도 촉진합니다. 브로커에 문제가 발생하면, 데이터가 여러 브로커에 데이터가 복제되어 데이터 손실이 되지 않죠.
·
프로듀서(Producer)
프로듀서는 토픽에 레코드를 전송 또는 생성하는 *엔터티(Entity)입니다. 카프카 생태계에서 ‘데이터의 진입점’ 역할도 함께 하고 있죠. 레코드가 전송될 토픽 및 파티션도 결정할 수 있습니다.
*엔터티(Entity): 업무에 필요한 정보를 저장하고 관리하는 집합적인 것
·
컨슈머(Consumer)
컨슈머는 토픽에서 레코드를 읽습니다. 하나 이상의 토픽을 구독하고, 브로커로부터 레코드를 소비합니다. 데이터의 출구점을 나타내기도 하며, 프로듀서에 의해 전송된 메시지를 최종적으로 읽히고 처리되도록 합니다.
·
토픽(Topic)
토픽은 프로듀서로부터 전송된 레코드 카테고리입니다. 각 토픽은 파티션으로 나뉘며, 이 파티션은 브로커 간에 복제됩니다.
카프카로 들어오는 데이터를 조직화하고, 분류하는 방법을 제공하기도 합니다. 파티션으로 나눔으로써 카프카는 ‘수평 확장성과 장애 허용성’을 보장합니다.
·
주키퍼(ZooKeeper)
주키퍼는 브로커를 관리하고 조정하는 데 도움을 주는 ‘중앙 관리소’입니다. 클러스터 노드의 상태, 토픽 *메타데이터(Metadata) 등의 상태를 추적합니다.
*메타데이터(Metadata): 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터
카프카는 분산 조정을 위해 주키퍼에 의존합니다. 주키퍼는 브로커에 문제가 발생하면, 다른 브로커에 알리고 클러스터 전체에 일관된 데이터를 보장하죠.
∴
카프카 구조 요약
요약한다면 카프카는
1) 복잡하지만 견고한 아키텍처 2) 대규모 스트림 데이터를 실시간으로 처리하는 데 있어 안정적이고 장애 허용성이 있음 3) 고도로 확장 가능한 플랫폼을 제공
으로 정리할 수 있습니다.
이처럼 카프카가 큰 데이터 환경에서 ‘어떻게’ 정보 흐름을 관리하고 최적화하는지 5가지의 구조를 통해 살펴보았습니다. 이제 카프카에 대해 조금 더 명확한 그림이 그려지지 않나요?
2. 컨슈머 그룹과 성능을 위한 탐색
카프카의 가장 주목할 만한 특징 중 하나는
‘컨슈머 그룹의 구현’
입니다. 이는 카프카의 확장성과 성능 잠재력을 이해하는 데 중심적인 개념이죠.
컨슈머 그룹 이해하기
카프카의 핵심은
‘메시지를 생산하고 소비’
하는 것입니다. 그런데 수백만, 심지어 수십억의 메시지가 흐르고 있을 때 어떻게 효율적으로 소비될까요?
여기서 컨슈머 그룹(Consumer Group)이 등장합니다. 컨슈머 그룹은, 하나 또는 그 이상의 컨슈머로 구성되어 하나 또는 여러 토픽에서 메시지를 소비하는데 협력합니다. 그렇다면 왜 효율적인지 알아보겠습니다.
·
로드 밸런싱:
하나의 컨슈머가 모든 메시지를 처리하는 대신, 그룹이 부하를 분산할 수 있습니다. 토픽의 각 파티션은 그룹 내에서 정확히 하나의 컨슈머에 의해 소비됩니다. 이는 메시지가 더 빠르고 효율적으로 처리된다는 것을 보장합니다.
·
장애 허용성:
컨슈머에 문제가 발생하면, 그룹 내의 다른 컨슈머가 그 파티션을 인수하여 메시지 처리에 차질이 없도록 합니다.
·
유연성:
데이터 흐름이 변함에 따라 그룹에서 컨슈머를 쉽게 추가하거나 제거합니다. 이에 따라 증가하거나 감소하는 부하를 처리할 수 있습니다.
여기까지는 최적의 성능을 위한 ‘카프카 튜닝 컨슈머 그룹의 기본 사항’을 다루었으니, 이와 관련된 ‘성능 튜닝 전략’에 대해 알아볼까요?
성능 튜닝 전략
·
파티션 전략:
토픽의 파티션 수는, 얼마나 많은 컨슈머가 활성화되어 메시지를 소비할 수 있는지 영향을 줍니다. 더 많은 파티션은 더 많은 컨슈머가 병렬로 작동할 수 있음을 의미하는 거죠. 그러나 너무 많은 파티션은 *오버헤드를 야기할 수 있습니다.
*오버헤드: 어떤 처리를 하기 위해 간접적인 처리 시간
·
컨슈머 구성:
*fetch.min.bytes 및 *fetch.max.wait.ms와 같은 매개변수를 조정합니다. 그다음 한 번에 얼마나 많은 데이터를 컨슈머가 가져오는지 제어합니다. 이러한 최적화를 통해 브로커에게 요청하는 횟수를 줄이고, 처리량을 높입니다.
*fetch.min.bytes: 한 번에 가져올 수 있는 최소 데이터 사이즈 *fetch.max.wait.ms: 데이터가 최소 크기가 될 때까지 기다릴 시간
·
메시지 배치:
프로듀서는 메시지를 함께 배치하여 처리량을 높일 수 있게 구성됩니다. *batch.size 및 *linger.ms와 같은 매개변수를 조정하여, 대기 시간과 처리량 사이의 균형을 찾을 수 있게 되죠.
*batch.size: 한 번에 모델이 학습하는 데이터 샘플의 개수 *linger.ms: 전송 대기 시간
·
압축:
카프카는 메시지 압축을 지원하여 전송 및 저장되는 데이터의 양을 줄입니다. 이로 인해 전송 속도가 빨라지고 전체 성능이 향상될 수 있습니다.
·
로그 정리 정책:
카프카 토픽은, 설정된 기간 또는 크기 동안 메시지를 유지할 수 있습니다. 보존 정책을 조정하면, 브로커가 저장 공간이 부족해지는 점과 성능이 저하되는 점을 방지할 수 있습니다.
3. 컨슈머 그룹과 성능을 위한 실제 코드 예시
다음 그림과 같은 코드를 보며 조금 더 자세히 살펴보겠습니다. NodeJS 코드 중 일부를 발췌했습니다. 카프카 설치 시에 사용되는 설정 파일 *server.properties에서 파티션의 개수를 CPU 코어 수와 같게 설정하는 코드입니다. 이에 대한 장점들을 쭉 살펴볼까요?
*server.properties: 마인크래프트 서버 옵션을 설정할 수 있는 파일
CPU 코어 수에 파티션 수를 맞추었을 때의 장점
·
최적화된 리소스 활용:
카프카에서는 각 파티션이 읽기와 쓰기를 위한 자체 *I/O(입출력) 스레드를 종종 운영합니다. 사용 가능한 CPU 코어 수와 파티션 수를 일치시키면, 각 코어가 특정 파티션의 I/O 작업을 처리합니다. 이 동시성은 리소스에서 최대의 성능을 추출하는 데 도움 됩니다.
·
최대 병렬 처리:
카프카의 설계 철학은 ‘병렬 데이터 처리’를 중심으로 합니다. 코어 수와 파티션 수 사이의 일치는, 동시에 처리되어 처리량을 높일 수 있습니다.
·
간소화된 용량 계획:
이 접근 방식은, 리소스 계획에 대한 명확한 기준을 제공합니다. 성능 병목이 발생하면 CPU에 *바인딩(Binding)되어 있는지 명확하게 알 수 있습니다. 인프라를 정확하게 조정할 수도 있게 되죠.
*바인딩(Binding): 두 프로그래밍 언어를 이어주는 래퍼 라이브러리
·
오버헤드 감소:
병렬 처리와 오버헤드 사이의 균형은 미묘합니다. 파티션 증가는 병렬 처리를 촉진할 수 있습니다. 하지만 더 많은 주키퍼 부하, 브로커 시작 시간 연장, 리더 선거 빈도 증가와 같은 오버헤드도 가져올 수도 있습니다. 파티션을 CPU 코어에 맞추는 것은 균형을 이룰 수 있게 합니다.
다음은 프로세스 수를 CPU 코어 수만큼 생성하여, 토픽의 파티션 개수와 일치시킨 코드에 대한 장점입니다.
파티션 수와 컨슈머 프로세스 수 일치의 장점
·
최적의 병렬 처리:
카프카 파티션의 각각은 동시에 처리될 수 있습니다. 컨슈머 수가 파티션 수와 일치하면, 각 컨슈머는 특정 파티션에서 메시지를 독립적으로 소비할 수 있게 되죠. 따라서 병렬 처리가 향상됩니다.
·
리소스 효율성:
파티션 수와 컨슈머 수가 일치하면, 각 컨슈머가 처리하는 데이터의 양이 균등하게 분배됩니다. 이로 인해 전체 시스템의 리소스 사용이 균형을 이루게 되죠.
·
탄력성과 확장성:
트래픽이 증가하면, 추가적인 컨슈머를 컨슈머 그룹에 추가하여 처리 능력을 증가시킵니다. 동일한 방식으로 트래픽이 감소하면 컨슈머를 줄여 리소스를 절약할 수 있습니다.
·
고가용성과 오류 회복:
컨슈머 중 하나가 실패하면, 해당 컨슈머가 처리하던 파티션은 다른 컨슈머에게 자동 재분배됩니다. 이를 통해 시스템 내의 다른 컨슈머가 실패한 컨슈머의 작업을 빠르게 인수하여, 메시지 처리가 중단되지 않습니다.
마지막으로 각 프로세스별 컨슈머를 생성해서 토픽에 구독 후, 소비하는 과정을 나타낸 소스코드입니다.
∴
컨슈머 그룹 요약
컨슈머 그룹은 높은 처리량과 장애 허용성 있는 메시지 소비를 제공하는 능력이 핵심입니다. 카프카가 어떤 식으로 운영되는지에 대한 상세한 부분을 이해하고 다양한 매개변수를 신중하게 조정한다면, 어떠한 상황에서도 카프카의 최대 성능을 이끌어낼 수 있습니다!
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
©
참고 자료
· Jay Kreps, “I Hearts Logs”, Confluent
· 위키피디아, “Logging(computing)”
· Confluent, “https://docs.confluent.io/kafka/overview.html”
· Neha Narkhede, Gwen Shapira, Todd Palino, “Kafka: The Definitive Guide”
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
#LOG
#로그
#카프카
#컨슈머
#KAFKA
#SIEM
#제니우스
김채욱
개발4그룹
실시간 대용량 로그 데이터의 수집 및 가공에 관심을 가지고 있습니다. 함께 발전해 나가는 개발을 추구합니다.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
NMS(네트워크 관리 시스템)에 대해서 꼭 알아야 할 네 가지
NMS(네트워크 관리 시스템)에 대해서 꼭 알아야 할 네 가지
산업 분야를 통틀어서 최근 모든 기업과 공공기관들의 ‘네트워크’ 활용도와 의존도가 빠르게 증가하고 있습니다. 따라서 이제 ‘안정적인 네트워크 관리 = 성공적인 비즈니스 운영’이라고도 할 수 있는데요. 오늘은 네트워크를 안정적으로 유지해서 성공적인 비즈니스 운영을 도와주는, NMS(Network Management System, 네트워크 관리 시스템)에 대해서 자세히 알아보겠습니다. NMS의 등장 배경, 시대별 변화, 그리고 핵심 개념과 실제 사례까지 NMS에 대해서 꼭 알아야 할 네 가지는 무엇일까요? 。。。。。。。。。。。。 │NMS(네트워크 관리 시스템)의 기본 개념과 등장 배경 NMS란 다양한 이기종 네트워크 장치(Network device)를 중앙에서 관리하고 감시할 수 있는 시스템입니다. 즉 전체 네트워크를 중앙 시스템을 통해 모니터링, 진단, 분석, 가용성을 유지하기 위해 만들어진 시스템을 말합니다. NMS의 필요성과 등장 배경은 OSI의 SMFAs(Specific Management Functional Areas)의 다섯 가지 영역(FCAPS)로 정리할 수 있습니다. 장애관리(Fault Management): 경보 감시, 고장 위치의 측정 시험 등 NMS의 첫 번째 관심사는 네트워크의 가용성을 보장하는 것입니다. 네트워크에서 발생하는 장애를 감지·격리·복구하는 과정으로, 네트워크 가동 시간을 최대화하고 서비스 중단을 최소화하는 것이 목적입니다. 구성 관리(Configuration Management): 설비제공, 상태 제어, 설치 지원 등 네트워크의 구성 요소(하드웨어, 소프트웨어, 네트워크 설정 등)를 관리하는 과정으로, 네트워크의 변경 사항을 추적하고 일관된 네트워크 성능과 안정성을 유지하는 데 중요합니다. 계정관리(Accounting Management): 계정(과금) 정보의 수집/저장/제어 등 네트워크 자원의 사용량을 추적하고 기록하는 과정이며, 자원의 할당과 과금에 사용됩니다. 사용량, 사용시간, 서비스 품질, 장비 사용률 등 네트워크 관리 및 운영에 관한 비용 할당 시 필요합니다. 성능 관리(Performance Management): 성능감시/트래픽 관리/품질관리/통계관리 네트워크의 트래픽이 특정 시간에 급증하는 것을 성능 관리 시스템이 감지했을 때, 이 정보를 사용하여 네트워크 용량을 적절히 조정하거나 트래픽을 분산시킬 수 있습니다. 보안 관리(Security Management): 보안/안전/기밀 관리 등 보안 관리 시스템은 사용자의 무단 엑세스 시도를 감지하며 즉시 차단할 수 있는 접근 제어, 인증, 암호화, 키관리 등을 관리하는 것과 관련이 있습니다. 네트워크 인프라의 로그 모니터링을 통해 잠재적인 보안 문제를 사전에 예방할 수 있습니다. 위와 같은 등장 배경과 필요성을 가진 NMS, 시대별로는 어떻게 변해왔는지 살펴보겠습니다. │NMS(네트워크 관리 시스템)의 시대별 변화 1980년대 초부터 현재에 이르기까지 NMS의 시대별 변화를 간략히 살펴보면 다음과 같습니다. 1980년대 ~ 2010년대 초 1980년대에 등장한 초기 NMS는 단순한 모니터링과 제어에 둔 간단한 형태였고, 특정 벤더의 하드웨어에 종속되고 표준화가 제대로 이루어지지 않았었습니다. 1990년대에 들어서 네트워크의 복잡성이 커지면서 NMS의 필요성도 증가했습니다. 이때 보안 기능이 향상된 SNMPv2와 같은 표준 프로토콜이 도입되면서, 다양한 제조사의 장비를 하나의 시스템으로 통합 관리할 수 있게 되었습니다. 또한 네트워크뿐만 아니라 서버까지 같이 관리하기 위한 SNMS(Server and network Management System)와, 더 나아가 EMS(ITIM)도 나오게 되었습니다. 이후 2000년대 초반에 웹 기반 NMS 솔루션이 등장하면서, 사용자 친화적인 인터페이스와 원격 접근 기능 등을 통해 효율적인 네트워크 관리가 가능해졌습니다. 2010년대 중반 ~ 2010년대 후반 NMS는 2010년대 중반부터 등장한 클라우드 컴퓨팅, 빅데이터, 인공지능(AI) 등의 기술과 함께 더욱 고도화되었습니다. 점점 더 다양한 네트워크와 서비스를 통합 관리하며, 자동화된 분석과 의사결정을 지원하게 되었습니다. 최신 동향 최근에는 AI와 머신러닝을 활용하여 예측 분석, 네트워크의 자동 최적화, 사이버 보안 통합 등이 NMS의 중요한 요소로 강조되고 있습니다. 또한 새로운 네트워크 기술인 5G의 도입으로 NMS는 더욱 복잡해지고 다양한 네트워크 환경을 관리하게 되었습니다. 이처럼 NMS는 네트워크 기술의 발전과 산업의 변화에 발맞추어, 지속적이고 빠르게 발전하고 있습니다. 이제 NMS의 구조에 대해서 자세히 알아보겠습니다. │NMS(네트워크 관리 시스템)의 3-Tier 아키텍처 NMS는 3-Tier 아키텍처(수집-저장-표출)로 구성되어 있습니다. 각각 독립된 계층으로 구분되어 있는데요. 특정 부분의 업그레이드가 필요할 때 해당 계층만 영향을 주기 때문에 시스템을 보다 쉽게 관리할 수 있습니다. 다시 정리한다면 NMS Manager에서 SNMP · ICMP · RMON 등 다양한 네트워크 프로토콜을 활용하여, 네트워크 자원의 성능 데이터를 수집합니다. 만약 Managed Device 장비들이 한계치에 도달하거나 장애가 발생했을 경우, 즉각적으로 User Interface를 통해 사용자에게 알립니다. 그렇다면 NMS의 핵심 기능은 무엇일까요? │NMS(네트워크 관리 시스템)의 핵심 기능 네트워크 장애에 대한 신속한 파악과 대응이 반드시 필요한 NMS의 핵심 기능에는 어떤 것들이 있는지 자세히 살펴보겠습니다. 장애 관리 네트워크 인프라의 결함이나 오류를 탐지하고 경고 및 알림을 생성하여, 관리자가 신속하게 대응할 수 있도록 지원합니다. 이를 통해 다운타임을 최소화하고 서비스 지속성을 보장합니다. 예를 들어 네트워크의 라우터가 다운될 경우, NMS는 즉시 관리자에게 경고를 보내 신속한 문제 해결을 도와줍니다. 성능 관리 네트워크 구성 자원인 트래픽 가용성, 응답시간, 사용량, 오류량, 처리 속도 등을 추적하고 최적화합니다. 또한 부하가 발생하지 않도록 문제점을 미리 검출해 안정적인 네트워크 운영이 될 수 있도록 합니다. 예를 들어 특정 애플리케이션이 과도한 대역폭을 소비할 경우, NMS가 문제를 정확히 찾아내서 관리자가 네트워크를 최적화할 수 있도록 돕습니다. ▲ 제니우스(Zenius)를 활용한 성능 모니터링 화면 예시 구성 관리 관리자는 NMS를 통해 분산된 네트워크 장치 구성 프로세스를 자동화하여, 네트워크 전반에 걸쳐 일관성과 정확성을 보장할 수 있습니다. 이러한 핵심 기능을 하는 NMS의 구체적인 활용 사례를 살펴보겠습니다. │NMS(네트워크 관리 시스템)의 활용 사례 IT 분야뿐 아니라 제조업, 금융, 여행, 유통 및 물류 등 전 분야에 걸쳐서 NMS가 사용되고 있습니다. 특히 처리 속도, 가용성, 보안 등이 중요한 금융산업의 경우에 NMS를 통한 안정적인 관리가 중요한데요. 브레인즈컴퍼니의 제니우스(Zenius) EMS를 사용하고 있는 S금융사의 사례를 자세히 살펴보겠습니다. S금융사, Zenius NMS를 통해 완벽하게 네트워크를 관리하게 되다 S금융사는 서버만 800ea, NW 14,000ea 이상의 대규모 인프라를 보유하고 있었습니다. 하지만 Zenius NMS 도입 전까지는 서비스 장애에 영향을 준 네트워크 장애 원인 파악을 위한 장기간 투자하고 있는 상황이었고, 네트워크 운영 현황 데이터 수집과 분석에 많은 시간이 소요되고 있었습니다. 무엇보다 신속한 장애 인지와 처리가 어려워서 큰 고민이 있었는데요. 위 도표에서도 살펴본 것처럼 Zenius NMS 도입을 통해, 이전에 고민과 단점을 극복하고 안정적으로 네트워크 관리를 할 수 있게 되었습니다. 특히 Zenius NMS는 고성능의 Manager를 제공하고 있어 대규모 환경에서도 장애를 신속하게 판단하여, 타사 대비 많은 자원을 효율적으로 관리할 수 있습니다. 。。。。。。。。。。。。 지금까지 살펴본 것처럼 NMS는 네트워크 인프라를 효율적으로 관리하는데 가장 중요한 역할을 합니다. 제니우스(Zenius) NMS처럼 고성능의 Manager를 기반으로 네트워크 상태를 신속하게 판단하며, 유저 중심의 통합 UI를 제공하는 NMS 솔루션을 꼭 선택하시기 바랍니다!
2024.01.31
ICMP와 SNMP를 비롯한 NMS의 구성요소와 주요 기능은?
ICMP와 SNMP를 비롯한 NMS의 구성요소와 주요 기능은?
지난 포스팅을 통해서 NMS의 기본 개념과 시대별 변화, 그리고 활용 사례 등을 살펴보았는데요. 오늘은 ICMP와 SNMP를 비롯한 NMS의 구성 요소와 주요 기능에 대해서 자세히 알아보겠습니다. 。。。。。。。。。。。。 │ NMS(네트워크 관리 시스템)의 구성 요소와 역할 NMS의 구성 요소와 역할은 크게 다섯 가지로 나눌 수 있습니다. NMS Manager NMS Manager는 Managed Device를 모니터링하고 제어하는 역할을 합니다. SNMP, ICMP, RMON 등의 망 관리 프로토콜을 이용하여 Managed Device 정보를 수집하며 User Interface도 제공합니다. Management Agent (SNMP Agent) 독자적으로 트래픽을 모니터링하고, 통계 정보를 자신의 MIB에 저장해 두었다가 트래픽 정보 요구나 특정 동작 요청에 응답합니다. 또한 망 관리 프로토콜을 활용하여 Manager에게 관리 정보를 전달합니다. Managed Device 백본, 스위치, 라우터, 허브와 같은 네트워크 장비를 말하며 Management Information을 수집하여 MIB에 보관합니다. MIB (Management Information Base) Managed Device의 정보를 포함한 Database 역할을 수행합니다. 관리되는 정보들을 계층적 트리 구조로 구성되고, 망 관리용 프로토콜인 SNMP 등에 의해서 읽힙니다. SNMP Protocol 네트워크 장치로부터 정보를 수집하여 작업을 수행하는 응용 계층의 프로토콜입니다. MIB에 정의되어 있는 객체들의 OID 값을 전달받아 해당 장비의 상태를 나타냅니다. │ NMS 구성 요소의 상호작용 NMS 구성 요소의 상호 작용을 자세히 살펴보면 각각의 네트워크 장비에는 SNMP Agent가 내장되어 있고, MIB를 이용해 네트워크의 상태 및 구성에 대한 정보를 요청하고 응답받습니다. Agent는 관리 정보를 수집하며, SNMP 프로토콜을 이용하여 NMS Manager와 통신을 합니다. NMS Manager의 Server 단에서는 SNMP가 수집한 데이터를 기반으로 분석, 가공, 성능, 구성, 장애, 보안, 운영 등의 관리 작업을 수행합니다. 또한 DB 단에서는 이벤트 및 로그를 기록하여 문제 해결 및 보고에 사용하는데요. 최종적으로는 User Interface를 통해 운영자가 네트워크 장비들을 효율적으로 모니터링하고 관리하기 위한 가시적인 화면을 제공합니다. │ NMS의 데이터 수집 방식 (관련 프로토콜) NMS는 여러 가지 성능 정보를 수집하여 모니터링하기 위해 다양한 프로토콜을 사용합니다. ① SNMP(Simple Network Management Protocol) 네트워크 장비를 관리하고 모니터링하기 위해 사용되는 인터넷 표준 프로토콜입니다. 네트워크 관리자가 네트워크에 연결된 상태를 확인하고 필요한 경우 설정을 변경할 수 있도록 설계되었고, 대부분 NMS 상에 구현되어 이용되고 있습니다. TCP/IP 기반에서 망관리를 위한 프로토콜이며, 관리 대상과 시스템 간 관리 정보(MIB)를 주고받기 위한 규정입니다. Manager(NMS), Agent, MIB(Management Information Base), Managed Device 등으로 구성됩니다. SNMP의 처리 단계는 Get/Set/Trap의 단순 명령 구조로 구성됩니다. SNMP의 메시지 타입은 Get/Set/Trap의 단순 명령 구조로 구성되는데요, 메세지 타입별 역할은 아래와 같습니다. ② ICMP (Internet Control Message Protocol) IP(Internet Protocol) 네트워크의 기기들이 서로 통신 상태 정보와 오류 메시지를 교환하기 위해 사용하는 네트워크 레벨 프로토콜로, 주로 네트워크 장비와 서버 간의 연결 문제를 진단하고 보고하는 데 사용됩니다. ICMP의 주요 기능은 크게 두 가지입니다. ◾ 오류보고(Error Reporting): 네트워크에서 데이터를 전송하는 동안 발생할 수 있는 여러 종류의 오류를 감지하고, 이에 대한 정보를 송신자에게 알리는 기능 ◾ 진단도구(Diagnostic Functions): 네트워크 연결 문제를 진단하는 데 사용되는 유틸리티(예: ping, traceroute)는 ICMP 메시지를 활용하여 네트워크의 상태를 확인합니다. 이를 통해 네트워크의 연결 상태, 지연 시간, 패킷 손실 등을 평가할 수 있습니다. 먼저 SNMP와 ICMP를 살펴보았는데요, 잠깐 두 가지 방식을 자세히 비교해 보면 SNMP는 장치 모니터링, 구성 변경, 이벤트 알림을 제공하며 주로 관리자 중심의 기능을 수행합니다. 반면 ICMP는 네트워크 통신의 에러 및 상태를 보고하고 호스트 간의 연결성을 테스트하는 데 사용되며, 주로 이벤트 기반 및 연결성 확인을 위한 메시지를 전송하는 데 중점을 둡니다. NMS의 데이터 수집 방식에 대해서 계속 살펴보겠습니다. ③ RMON (Remote Network Monitering) SNMP의 확장 형태로 개발된 RMON은, 분산되어 있는 망에 대한 트래픽을 측정하여 망을 감시하고 분석을 제공하는 프로토콜입니다. 원격에 위치한 Probe에서 망자원의 상태 정보를 수집하여 에러를 방지하고 효율적으로 이용하는 것을 목적으로 합니다. NMS의 대표적인 수집 방식을 살펴보았는데요, 이 외에도 다양한 방식이 있기 때문에 NMS 솔루션은 다양한 방식을 지원하는 것이 중요합니다. (*브레인즈컴퍼니의 Zenius-NMS는 SNMP와 ICMP 외에도 RMON, CDP, LLDP 프로토콜 등 다양한 수집 방식을 지원하고 있습니다.) │ NMS의 경보 알림 연계 방식 네트워크 내의 장애나 이상 상태를 감지했을 때 관리자나 담당자에게 이를 알리는 방법으로, NMS의 핵심이라고 할 수 있습니다. 다양한 경보 알림 방식이 있으며, 각 방식은 특정 상황이나 니즈에 맞게 선택되고 있는데요 가장 대표적인 방식들을 알아보겠습니다. 이메일(E-mail) 알림 네트워크 성능이 저하되는 등의 문제가 발생하면, 이메일 시스템과 연계하여 설정된 이메일 주소로 자동으로 알림을 발송합니다. 문제 발생 시 기록을 남기기 쉽다는 장점이 있지만, 긴급한 문제에는 이메일을 확인하는데 지연이 발생할 수 있습니다. 문자 메시지(SMS) 알림 네트워크의 문제 감지 시, NMS는 사전에 등록된 휴대전화 번호로 경보의 성격과 간단한 설명을 포함한 SMS 메시지를 보냅니다. 신속한 알림이 가능하다는 장점은 있지만, 메시지 길이에 제한이 있다는 단점도 있습니다. 메신저 및 협업 툴을 사용한 알림 최근 많이 사용되는 슬랙, 텔레그램, 팀스, 카카오톡을 통해 네트워크의 이상을 알리는 방식입니다. 문자 메시지와 같이 신속한 알림이 가능하면서 메시지 길이에 크게 제한이 없다는 장점도 있습니다. Dashboard를 통한 이벤트 관제 특정 경보가 발생하면, 웹 기반의 대시보드에 경보 메시지를 포함하여 관리자가 시각적으로 확인할 수 있도록 알립니다. 직관적으로 실시간 네트워크 상태를 모니터링할 수 있는 것이 가장 큰 장점입니다. 서버, 네트워크, 부대설비 모듈을 포함한 Zenius-Dashboard 예시 화면 위와 같이 다양한 알림 연계 방식을 통해, 담당자에게 즉시 장애 처리를 할 수 있도록 지원하는 기능도 중요합니다. NMS에서 즉각적인 장애를 처리하기 위해 제공하는 기능은 다음과 같습니다. ◾ 다중 수신자 지원: 여러 관리자나 담당자에게 동시에 경보를 전송하여 여러 관리자가 신속하게 대응할 수 있게 합니다. ◾ 알림 임계값 설정: 관리자는 경보 발생을 위한 임계값을 설정할 수 있습니다. (예: 특정 장치의 성능이 일정 수준 이하로 떨어질 때 알림을 발생시키도록 설정) ◾ 장애 관리 자동화: 특정 이벤트에 대해 미리 정의된 복구 스크립트 및 시나리오를 통해 장애 감지부터 처리까지의 장애 관리 업무를 자동화할 수 있습니다. NMS의 경보 알림 방식을 살펴보았는데요, 이제 NMS의 주요 기능을 자세하게 알아보겠습니다. │ NMS의 주요 기능 자세히 보기 NMS는 네트워크의 효율성, 가용성, 보안 등을 관리하고 감시하기 위한 다양한 기능을 제공합니다. 보편적으로 NMS에서 제공하는 상세 기능들은 아래와 같이 정리할 수 있습니다. NMS는 장애 관리, 구성 관리, 성능 관리를 중심으로 다양한 세부 기능을 가지고 있습니다. NMS의 많은 기능 중에서도 특히 네트워크 장비들을 실시간으로 모니터링할 수 있는 '성능 관리' 기능과, 성능 저하 또는 병목 현상을 빠르게 식별하여 해결할 수 있는 '장애 관리' 기능이 중요합니다. │ NMS의 발전 방향 NMS는 복잡하고 빠르게 변화하는 기술 트렌드에 맞춰 지속적으로 발전하고 있습니다. 클라우드, 가상화, 5G, IoT와 같은 기술의 발전에 따라서 사용자에게 높은 품질의 서비스를 제공하기 위한 방향으로 진화하고 있습니다. 온 프레미스와 클라우드의 조화 온 프레미스 환경은 보안, 규정 준수, 네트워크 제어와 같은 니즈 때문에 여전히 중요한 역할을 하고 있습니다. 반면 클라우드 기반 NMS 솔루션은 비용 효율성, 안정성, 용이한 배포와 같은 이점을 제공하는데요. 따라서 NMS도 온 프레미스와 클라우드의 장점을 조화롭게 포함하며 발전하고 있습니다. 클라우드 네이티브 환경으로의 진화 기업과 기관들이 클라우드 서비스를 적극적으로 채택함에 따라 NMS는 클라우드의 유연성, 확장성, 효율성을 극대화하는 등 클라우드 환경에 더욱 적합한 구조로 발전하고 있습니다. 분산형 아키텍처와 기술 혁신 최근의 NMS는 중앙 집중식에서 벗어나 더욱 분산된 아키텍처를 채택하고 있습니다. 마이크로 서비스 아키텍처(MSA)를 통해 모듈화되고 유연한 시스템 구조를 도입하여, 필요한 기능을 쉽게 추가하거나 변경할 수 있습니다. 또한 AI 기반의 NMS는 네트워크 데이터를 분석하고, 문제의 예측 및 해결 능력 향상에 기여하고 있습니다. 이 밖에도 NMS는 5G와 IoT 등의 신기술에 효과적으로 대응하기 위해 지속적으로 발전하고 있습니다. 。。。。。。。。。。。。 NMS의 구성 요소와 주요 기능 그리고 발전 방향에 대해서 살펴봤습니다. NMS 솔루션을 선택할 때는 기본적인 기능을 잘 갖추고 있을 뿐 아니라, 혁신적인 기술과 트렌드를 적극적으로 채택하고 지속적인 연구와 개선을 지속하는 기업의 솔루션을 선택해야 합니다. 안정적인 네트워크 운영은 이제 비즈니스의 필수 요소입니다. 성공적인 NMS 솔루션 선택을 통해 네트워크 성능을 극대화하여 비즈니스의 경쟁력을 확보하시기 바랍니다!
2024.02.08
다음 슬라이드 보기