반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
AI 인공지능
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
APM Solution
애플리케이션 관리
URL 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
기술이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
[브레인저가 알려주는 IT#1] 네트워크 관리, SNMP가 뭔가요?
카프카를 통한 로그 관리 방법
김채욱
2023.09.19
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
메모리 누수 위험있는 FinalReference 참조 분석하기
안녕하세요! 저는 개발4그룹에서 제니우스(Zenius) SIEM의 로그 관리 기능 개발을 담당하고 있는 김채욱 입니다. 제가 하고 있는 일은 실시간으로 대용량 로그 데이터를 수집하여 분석 후, 사용자에게 가치 있는 정보를 시각화하여 보여주는 일입니다.
이번 글에서 다룰 내용은
1) 그동안 로그(Log)에 대해 조사한 것과 2) 최근에 CCDAK 카프카 자격증을 딴 기념으로, 카프카(Kafka)를 이용하여 어떻게 로그 관리를 하는지
에 대해 이야기해 보겠습니다.
PART1. 로그
1. 로그의 표면적 형태
로그(Log)는 기본적으로 시스템의 일련된 동작이나 사건의 기록입니다. 시스템의 일기장과도 같죠. 로그를 통해 특정 시간에 시스템에서 ‘어떤 일’이 일어났는지 파악할 수도 있습니다. 이렇게 로그는 시간에 따른 시스템의 동작을 기록하고, 정보는 순차적으로 저장됩니다.
이처럼
로그의 핵심 개념은 ‘시간’
입니다. 순차적으로 발생된 로그를 통해 시스템의 동작을 이해하며, 일종의 생활기록부 역할을 하죠. 시스템 내에서 어떤 행동이 발생하였고, 어떤 문제가 일어났으며, 유저와의 어떤 교류가 일어났는지 모두 알 수 있습니다.
만약 시간의 개념이 없다면 어떻게 될까요? 발생한 모든 일들이 뒤섞이며, 로그 해석을 하는데 어려움이 생기겠죠.
이처럼 로그를 통해 시스템은 과거의 변화를 추적합니다. 똑같은 상황이 주어지면 항상 같은 결과를 내놓는 ‘결정론적’인 동작을 보장할 수 있죠. 로그의 중요성, 이제 조금 이해가 되실까요?
2. 로그와 카프카의 관계
자, 그렇다면! 로그(Log)와 카프카(Kafka)는 어떤 관계일까요? 우선 카프카는 분산 스트리밍 플랫폼으로서, 실시간으로 대용량의 데이터를 처리하고 전송하는데 탁월한 성능을 자랑합니다. 그 중심에는 바로 ‘로그’라는 개념이 있는데요. 좀 더 자세히 짚고 넘어가 보겠습니다.
3. 카프카에서의 로그 시스템
카프카에서의 로그 시스템은, 단순히 시스템의 에러나 이벤트를 기록하는 것만이 아닙니다. 연속된 데이터 레코드들의 스트림을 의미하며, 이를 ‘토픽(Topic)’이라는 카테고리로 구분하죠. 각 토픽은 다시 *파티션(Partition)으로 나누어, 단일 혹은 여러 서버에 분산 저장됩니다. 이렇게 분산 저장되는 로그 데이터는, 높은 내구성과 가용성을 보장합니다.
*파티션(Partition): 하드디스크를 논리적으로 나눈 구역
4. 카프카가 로그를 사용하는 이유
로그의 순차적인 특성은 카프카의 ‘핵심 아키텍처’와 깊게 연결되어 있습니다. 로그를 사용하면,
데이터의 순서를 보장할 수 있어 대용량의 데이터 스트림을 효율적
으로 처리할 수 있기 때문이죠. 데이터를 ‘영구적’으로 저장할 수 있어,
데이터 손실 위험 또한 크게 줄어
듭니다.
로그를 사용하는 또 다른 이유는 ‘장애 복구’
입니다. 서버가 장애로 인해 중단되었다가 다시 시작되면, 저장된 로그를 이용하여 이전 상태로 복구할 수 있게 되죠. 이는 ‘카프카가 높은 가용성’을 보장하는 데 중요한 요소입니다.
∴
로그 요약
로그는 단순한 시스템 메시지를 넘어 ‘데이터 스트림’의 핵심 요소로 활용됩니다. 카프카와 같은 현대의 데이터 처리 시스템은
로그의 이러한 특성을 극대화하여, 대용량의 실시간 데이터 스트림을 효율적으로 처리
할 수 있는 거죠. 로그의 중요성을 다시 한번 깨닫게 되는 순간이네요!
PART2. 카프카
로그에 이어 에 대해 설명하겠습니다. 들어가기에 앞서 가볍게 ‘구조’부터 알아가 볼까요?
1. 카프카 구조
· 브로커(Broker)
브로커는 *클러스터(Cluster) 안에 구성된 여러 서버 중 각 서버를 의미합니다. 이러한 브로커들은, 레코드 형태인 메시지 데이터의 저장과 검색 및 컨슈머에게 전달하고 관리합니다.
*클러스터(Cluster): 여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합
데이터 분배와 중복성도 촉진합니다. 브로커에 문제가 발생하면, 데이터가 여러 브로커에 데이터가 복제되어 데이터 손실이 되지 않죠.
·
프로듀서(Producer)
프로듀서는 토픽에 레코드를 전송 또는 생성하는 *엔터티(Entity)입니다. 카프카 생태계에서 ‘데이터의 진입점’ 역할도 함께 하고 있죠. 레코드가 전송될 토픽 및 파티션도 결정할 수 있습니다.
*엔터티(Entity): 업무에 필요한 정보를 저장하고 관리하는 집합적인 것
·
컨슈머(Consumer)
컨슈머는 토픽에서 레코드를 읽습니다. 하나 이상의 토픽을 구독하고, 브로커로부터 레코드를 소비합니다. 데이터의 출구점을 나타내기도 하며, 프로듀서에 의해 전송된 메시지를 최종적으로 읽히고 처리되도록 합니다.
·
토픽(Topic)
토픽은 프로듀서로부터 전송된 레코드 카테고리입니다. 각 토픽은 파티션으로 나뉘며, 이 파티션은 브로커 간에 복제됩니다.
카프카로 들어오는 데이터를 조직화하고, 분류하는 방법을 제공하기도 합니다. 파티션으로 나눔으로써 카프카는 ‘수평 확장성과 장애 허용성’을 보장합니다.
·
주키퍼(ZooKeeper)
주키퍼는 브로커를 관리하고 조정하는 데 도움을 주는 ‘중앙 관리소’입니다. 클러스터 노드의 상태, 토픽 *메타데이터(Metadata) 등의 상태를 추적합니다.
*메타데이터(Metadata): 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터
카프카는 분산 조정을 위해 주키퍼에 의존합니다. 주키퍼는 브로커에 문제가 발생하면, 다른 브로커에 알리고 클러스터 전체에 일관된 데이터를 보장하죠.
∴
카프카 구조 요약
요약한다면 카프카는
1) 복잡하지만 견고한 아키텍처 2) 대규모 스트림 데이터를 실시간으로 처리하는 데 있어 안정적이고 장애 허용성이 있음 3) 고도로 확장 가능한 플랫폼을 제공
으로 정리할 수 있습니다.
이처럼 카프카가 큰 데이터 환경에서 ‘어떻게’ 정보 흐름을 관리하고 최적화하는지 5가지의 구조를 통해 살펴보았습니다. 이제 카프카에 대해 조금 더 명확한 그림이 그려지지 않나요?
2. 컨슈머 그룹과 성능을 위한 탐색
카프카의 가장 주목할 만한 특징 중 하나는
‘컨슈머 그룹의 구현’
입니다. 이는 카프카의 확장성과 성능 잠재력을 이해하는 데 중심적인 개념이죠.
컨슈머 그룹 이해하기
카프카의 핵심은
‘메시지를 생산하고 소비’
하는 것입니다. 그런데 수백만, 심지어 수십억의 메시지가 흐르고 있을 때 어떻게 효율적으로 소비될까요?
여기서 컨슈머 그룹(Consumer Group)이 등장합니다. 컨슈머 그룹은, 하나 또는 그 이상의 컨슈머로 구성되어 하나 또는 여러 토픽에서 메시지를 소비하는데 협력합니다. 그렇다면 왜 효율적인지 알아보겠습니다.
·
로드 밸런싱:
하나의 컨슈머가 모든 메시지를 처리하는 대신, 그룹이 부하를 분산할 수 있습니다. 토픽의 각 파티션은 그룹 내에서 정확히 하나의 컨슈머에 의해 소비됩니다. 이는 메시지가 더 빠르고 효율적으로 처리된다는 것을 보장합니다.
·
장애 허용성:
컨슈머에 문제가 발생하면, 그룹 내의 다른 컨슈머가 그 파티션을 인수하여 메시지 처리에 차질이 없도록 합니다.
·
유연성:
데이터 흐름이 변함에 따라 그룹에서 컨슈머를 쉽게 추가하거나 제거합니다. 이에 따라 증가하거나 감소하는 부하를 처리할 수 있습니다.
여기까지는 최적의 성능을 위한 ‘카프카 튜닝 컨슈머 그룹의 기본 사항’을 다루었으니, 이와 관련된 ‘성능 튜닝 전략’에 대해 알아볼까요?
성능 튜닝 전략
·
파티션 전략:
토픽의 파티션 수는, 얼마나 많은 컨슈머가 활성화되어 메시지를 소비할 수 있는지 영향을 줍니다. 더 많은 파티션은 더 많은 컨슈머가 병렬로 작동할 수 있음을 의미하는 거죠. 그러나 너무 많은 파티션은 *오버헤드를 야기할 수 있습니다.
*오버헤드: 어떤 처리를 하기 위해 간접적인 처리 시간
·
컨슈머 구성:
*fetch.min.bytes 및 *fetch.max.wait.ms와 같은 매개변수를 조정합니다. 그다음 한 번에 얼마나 많은 데이터를 컨슈머가 가져오는지 제어합니다. 이러한 최적화를 통해 브로커에게 요청하는 횟수를 줄이고, 처리량을 높입니다.
*fetch.min.bytes: 한 번에 가져올 수 있는 최소 데이터 사이즈 *fetch.max.wait.ms: 데이터가 최소 크기가 될 때까지 기다릴 시간
·
메시지 배치:
프로듀서는 메시지를 함께 배치하여 처리량을 높일 수 있게 구성됩니다. *batch.size 및 *linger.ms와 같은 매개변수를 조정하여, 대기 시간과 처리량 사이의 균형을 찾을 수 있게 되죠.
*batch.size: 한 번에 모델이 학습하는 데이터 샘플의 개수 *linger.ms: 전송 대기 시간
·
압축:
카프카는 메시지 압축을 지원하여 전송 및 저장되는 데이터의 양을 줄입니다. 이로 인해 전송 속도가 빨라지고 전체 성능이 향상될 수 있습니다.
·
로그 정리 정책:
카프카 토픽은, 설정된 기간 또는 크기 동안 메시지를 유지할 수 있습니다. 보존 정책을 조정하면, 브로커가 저장 공간이 부족해지는 점과 성능이 저하되는 점을 방지할 수 있습니다.
3. 컨슈머 그룹과 성능을 위한 실제 코드 예시
다음 그림과 같은 코드를 보며 조금 더 자세히 살펴보겠습니다. NodeJS 코드 중 일부를 발췌했습니다. 카프카 설치 시에 사용되는 설정 파일 *server.properties에서 파티션의 개수를 CPU 코어 수와 같게 설정하는 코드입니다. 이에 대한 장점들을 쭉 살펴볼까요?
*server.properties: 마인크래프트 서버 옵션을 설정할 수 있는 파일
CPU 코어 수에 파티션 수를 맞추었을 때의 장점
·
최적화된 리소스 활용:
카프카에서는 각 파티션이 읽기와 쓰기를 위한 자체 *I/O(입출력) 스레드를 종종 운영합니다. 사용 가능한 CPU 코어 수와 파티션 수를 일치시키면, 각 코어가 특정 파티션의 I/O 작업을 처리합니다. 이 동시성은 리소스에서 최대의 성능을 추출하는 데 도움 됩니다.
·
최대 병렬 처리:
카프카의 설계 철학은 ‘병렬 데이터 처리’를 중심으로 합니다. 코어 수와 파티션 수 사이의 일치는, 동시에 처리되어 처리량을 높일 수 있습니다.
·
간소화된 용량 계획:
이 접근 방식은, 리소스 계획에 대한 명확한 기준을 제공합니다. 성능 병목이 발생하면 CPU에 *바인딩(Binding)되어 있는지 명확하게 알 수 있습니다. 인프라를 정확하게 조정할 수도 있게 되죠.
*바인딩(Binding): 두 프로그래밍 언어를 이어주는 래퍼 라이브러리
·
오버헤드 감소:
병렬 처리와 오버헤드 사이의 균형은 미묘합니다. 파티션 증가는 병렬 처리를 촉진할 수 있습니다. 하지만 더 많은 주키퍼 부하, 브로커 시작 시간 연장, 리더 선거 빈도 증가와 같은 오버헤드도 가져올 수도 있습니다. 파티션을 CPU 코어에 맞추는 것은 균형을 이룰 수 있게 합니다.
다음은 프로세스 수를 CPU 코어 수만큼 생성하여, 토픽의 파티션 개수와 일치시킨 코드에 대한 장점입니다.
파티션 수와 컨슈머 프로세스 수 일치의 장점
·
최적의 병렬 처리:
카프카 파티션의 각각은 동시에 처리될 수 있습니다. 컨슈머 수가 파티션 수와 일치하면, 각 컨슈머는 특정 파티션에서 메시지를 독립적으로 소비할 수 있게 되죠. 따라서 병렬 처리가 향상됩니다.
·
리소스 효율성:
파티션 수와 컨슈머 수가 일치하면, 각 컨슈머가 처리하는 데이터의 양이 균등하게 분배됩니다. 이로 인해 전체 시스템의 리소스 사용이 균형을 이루게 되죠.
·
탄력성과 확장성:
트래픽이 증가하면, 추가적인 컨슈머를 컨슈머 그룹에 추가하여 처리 능력을 증가시킵니다. 동일한 방식으로 트래픽이 감소하면 컨슈머를 줄여 리소스를 절약할 수 있습니다.
·
고가용성과 오류 회복:
컨슈머 중 하나가 실패하면, 해당 컨슈머가 처리하던 파티션은 다른 컨슈머에게 자동 재분배됩니다. 이를 통해 시스템 내의 다른 컨슈머가 실패한 컨슈머의 작업을 빠르게 인수하여, 메시지 처리가 중단되지 않습니다.
마지막으로 각 프로세스별 컨슈머를 생성해서 토픽에 구독 후, 소비하는 과정을 나타낸 소스코드입니다.
∴
컨슈머 그룹 요약
컨슈머 그룹은 높은 처리량과 장애 허용성 있는 메시지 소비를 제공하는 능력이 핵심입니다. 카프카가 어떤 식으로 운영되는지에 대한 상세한 부분을 이해하고 다양한 매개변수를 신중하게 조정한다면, 어떠한 상황에서도 카프카의 최대 성능을 이끌어낼 수 있습니다!
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
©
참고 자료
· Jay Kreps, “I Hearts Logs”, Confluent
· 위키피디아, “Logging(computing)”
· Confluent, “https://docs.confluent.io/kafka/overview.html”
· Neha Narkhede, Gwen Shapira, Todd Palino, “Kafka: The Definitive Guide”
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
#LOG
#로그
#카프카
#컨슈머
#KAFKA
#SIEM
#제니우스
김채욱
개발4그룹
실시간 대용량 로그 데이터의 수집 및 가공에 관심을 가지고 있습니다. 함께 발전해 나가는 개발을 추구합니다.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
제니우스 SIEM(통합로그관리 시스템), 클라우드 서비스 확산 사업 서비스로 선정
제니우스 SIEM(통합로그관리 시스템), 클라우드 서비스 확산 사업 서비스로 선정
브레인즈컴퍼니의 IT 인프라 통합로그관리 시스템인 '제니우스 SIEM'이 과기부와 정보통신산업진흥원이 주관하는 '2024년 중소기업 클라우드 서비스 보급 확산 사업'의 공급 서비스로 선정됐습니다! ㅣ중소기업 클라우드 서비스 보급 확산 사업이란? 이 사업은 국내 중소기업들이 클라우드 기반의 디지털 서비스를 더 활발하게 사용하게 되는 것이 가장 큰 목적입니다. 위 이미지 상의 '수요기업'이 공급 서비스를 선택하여 이용 신청을 하면, 운영 기관에서 수요기업의 환경(산업 분야, 기업 규모 등)를 고려하여 도입 컨설팅 및 이용료를 지원합니다. 지원은 크게 두 가지 부문으로 일반지원과 집중 지원으로 나누어 진행되는데요. 일반지원으로 신청하여 최종 선정되면 최대 1,550만 원을, 집중 지원은 최대 5,000만 원을 지원받을 수 있습니다. (단, 자부담금은 20%) 브레인즈컴퍼니는 이번 사업에서 재무 건정성과, 통합로그관리 시장에서의 Zenius(제니우스) SIEM의 영향도를 높이 평가받아 제공기업으로 선정될 수 있었습니다. ㅣ제니우스(Zenius) SIEM은? 이번 사업의 공급 서비스로 등록된 제니우스 SIEM은, 이기종의 다양한 장비에서 발생되는 로그(Log)를 수집 및 분석하고 모니터링할 수 있는 솔루션입니다. AI 기술을 기반으로 한 SIEM을 통해 효율적인 실시간 모니터링과 컴플라이언스 준수, 그리고 보안 위협에 대한 대응 체계를 수립할 수 있어 시장에서 좋은 평가를 받고 있습니다. [그림] 제니우스 SIEM 예시 화면 높은 기술력과 품질을 인정받아 2023년에 CC 인증과 GS 인증 1등급을 획득하기도 한 SIEM은, 현재 인천공항공사를 비롯한 다수의 공공기관 및 기업에서 도입 후 사용 중에 있습니다. 제니우스 SIEM의 주요 특정점은 빠른 인덱싱 및 검색 속도, 무중단 스테일 아웃, 복합 이벤트 처리(CEP), 그리고 사용자 상황에 맞춘 사용자 정의 대시보드, 강력한 통계 분석 기능 등이 있습니다. 결과적으로 제니우스 SIEM을 통해 대용량 로그에 대한 통합 관리, 사이버 침해 위협에 대한 보안 대응 체계 마련, 컴플라이언스 준수 등의 목적을 이룰 수 있습니다. 다양한 기능을 탑재한 제니우스 SIEM을 통해, 대용량 로그에 대한 실시간 통합 모니터링 체계 구축하고 보안 위협에도 효과적으로 대응하시기 바랍니다.
2024.04.16
통합로그관리가 필요한 3가지 이유
통합로그관리가 필요한 3가지 이유
로그는 IT 인프라에서 발생하는 모든 상황들을 기록한 데이터입니다. 쉽게 말해 사용자가 어떤 루트로 사이트에 접속했고, 접속한 시점부터 어떤 행동을 취했는지가 모두 기록으로 남게 되는데, 이 기록들이 로그입니다. 로그는 IT 환경에서 가장 많이 발생하지만, 데이터 처리 기술이 발달하지 않았던 시기에는 처리 비용에 비해 가치가 낮은 데이터로 여겨졌습니다. 하지만 최근들어 IT 서비스와 인프라가 다양해지고 디지털 트랜스포메이션이 가속화되면서, 로그의 양이 기하급수적으로 증가하고 사물인터넷(IoT), 빅데이터 등과 같은 신기술이 발전하면서 그 효용성 또한 날로 증가하고 있습니다. 그렇다면, 이 로그는 실제로 어떻게 활용될까요? 개발 영역에서는 버그 혹은 크래시율 수집 및 상시 트래킹, 이슈 발생 후 롤백 및 대응, 특정 기능에 대한 사용성 진단에 활용됩니다. 마케팅 분야는 채널별 ROI 진단 및 비용 최적화, 배너/프로모션/이벤트 효과 측정, 유저 세그멘테이션 및 타게팅에 사용합니다. 기획 및 디자인 영역은 기능 개선을 위한 A/B 테스트, 유저 Journey 경로 분석을 통한 UX/UI 최적화 등에서 쓰이고 있습니다. 이처럼 여러 영역에서 다양하게 쓰이는 로그를 관리하지 않고 방치해두면 어떤 일이 발생할까요? 통합로그관리가 필요한 이유에 대해 알아보겠습니다. ----------------------------------------------- I. 보안 대응체계 구축 저장만 하고 관리되지 않은 로그는 IT 시스템의 장애나 문제 발생 시 그 원인을 찾아내기가 어렵습니다. 또, 로그 데이터의 중요 정보가 외부로 유출될 위험도 커집니다. 끊임없이 발생하는 보안 사고에 대비하기 위해 통합로그관리는 반드시 필요합니다. 관리된 로그는 장애나 사고 발생 시에 그 원인을 파악하고 빠른 대처를 위한 근거 데이터로 사용할 수 있으며, 보안 체계를 마련하는 데에도 활용가능 합니다. 기업들은 로그관리 제품을 사용해 사이버 침해위협을 예방 및 감시하고, 정기적인 로그분석을 통해 강력한 보안대응체계를 구축하고 있습니다. 통합로그관리 솔루션은 보안장비(Firewall, IDC, IPS 등)의 로그와 해킹, 악성코드 등 보안/침해 관련 로그를 지속적으로 분석해 예방 체계를 구축합니다. 또, 대용량 로그의 상관분석을 통해 보안위협을 탐지하고 이상징후를 모니터링하는 등 강력한 보안 대응체계를 구축할 수 있습니다. II. 컴플라이언스 준수 로그는 보안 사고가 발생했을 때 가장 기본적인 증거 및 모니터링 자료로 활용됩니다. 이에 따라 정부에서는 데이터 관리에 대해 각종 법률을 규정하고 있어, 공공기관을 비롯한 개인정보를 다루는 온라인 사업자 및 기업 등은 해당 법규를 준수해야 합니다. 안전한 데이터 이용을 위해 2018년에 발의된 '데이터 3법' 개정안은 2020년 1월 9일 국회 본회의를 통과했습니다. 데이터 3법은 개인정보 보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률 등 3가지 법률을 통칭합니다. 로그 관리 관련 규제의 주요 내용은 다음과 같습니다. i. 개인정보보호를 위해 접근 권한 부여, 변경 또는 말소 기록을 3년 이상 보관해야 합니다. ii. 개인정보 취급자는 개인정보처리시스템의 접속기록을 월 1회 이상 점검해야 하고, 그 활동의 증거를 남기기 위해 시스템에 접속했다는 기록을 1년 이상 보관해야 합니다. iii. 정보통신서비스 제공자는 접근 권한 내역을 5년간 보관하고, 접속 기록의 위·변조 방지를 위해 반드시 백업 보관해야 합니다. III. 빅데이터 처리 플랫폼 IT 인프라 확대 및 기타 비정형 로그 유입에 따라 대용량 로그에 대한 관리가 요구되고 있습니다. 특히 수집된 로그를 실시간으로 분석∙판단해 IT 서비스의 안정적 운영을 도모해야 하는 수요가 증대되고 있는데요. 오늘날의 데이터는 기존 데이터에 비해 양이 매우 방대해 기존 방법이나 도구로는 관리가 어렵습니다. 따라서 빅데이터 기술을 기반으로 하는 대용량 통합 로그관리 솔루션은 이제 IT 운영을 위한 필수 솔루션으로 자리잡았습니다. ----------------------------------------------- 이처럼 기업은 보안위협 및 이상징후 대응/컴플라이언스 준수/대용량 로그 관리를 위해 통합로그관리 솔루션을 필수로 갖춰야합니다. 브레인즈컴퍼니의 통합로그관리 솔루션 '제니우스(Zenius) Logmanager'는 이기종 장비에서 발생되는 정형∙비정형 로그 데이터의 수집/분석/관리 등을 위한 빅데이터 플랫폼입니다. 제니우스 로그매니저가 어떻게 구성돼 있는지 살펴보겠습니다. 제니우스 로그매니저는 정형/반정형 또는 비정형 로그에 대한 실시간 수집 및 신속한 분석 기능을 제공하며, 이러한 정보들을 다양한 차트와 대시보드를 통해 직관적으로 가시화합니다. 특히 로그매니저는 독보적인 인덱싱 및 검색 속도를 제공하며 확장성, 편의성, 효율성, 호환성 등의 특장점을 보유한 제품입니다. 로그 이벤트 발생 시 즉각적인 알람을 통해 빠른 문제 해결과 높은 가용성을 확보하도록 지원합니다.
2022.11.10
SIEM을 도입해야 하는 5가지 이유
SIEM을 도입해야 하는 5가지 이유
IT 산업의 발전에 따라 다양한 장비와 시스템에서 매일 엄청난 양의 로그가 만들어지고 있습니다. 보안 장비, 서버, 미들웨어 등에서 생성되는 로그들이 대표적입니다. 이러한 로그들을 모두 취합하여 관리하게 되면, 1년 동안 저장되는 데이터는 테라바이트(TB) 단위의 디스크 용량이 필요한데요. 이는 인프라 관리에 있어 큰 부담이 될 수 있겠죠. 이때 통합 로그 관리 시스템인 SIEM(Security Information and Event Management)이 해결책이 될 수 있습니다. 그렇다면 SIEM은 무엇일까요? SIEM은 보안 정보 관리(SIM, Security Information Management)와 보안 이벤트 관리(SEM, Security Event Management)의 이점을 결합한 로그 관리 도구입니다. 즉 수집한 로그를 통해 정보를 분석하여 보안상 위협이 되는 이벤트를 실시간으로 감지하는 솔루션이라고 할 수 있죠. 그래서 이번 시간에는 SIEM이 왜 필요한지, 그리고 어떤 특장점이 있는지 알아보도록 하겠습니다. │SIEM, 왜 필요할까? SIEM이 필요한 가장 큰 이유는 빅데이터 처리와 보안적 측면에서 설명할 수 있습니다. 빅데이터 로그는 보안 사고가 발생한 근거를 찾아내는 중요한 증거 자료로 활용됩니다. 예를 들어 대형 온라인 쇼핑몰에서는 수많은 거래가 이루어지며 해커의 침입 시도가 발생할 수 있는데요. 이러한 기록이나 비정상적인 접근을 실시간으로 감지하여 문제가 생기기 전에 미리 대응할 수 있습니다. 이처럼 보안 위협에 효과적으로 대응하려면, 수집한 로그 데이터에 대한 체계적인 분석이 필요합니다. 관리되지 않은 로그는 IT 시스템의 장애나 문제 발생 시 원인을 찾아내기 어렵기 때문이죠. 따라서 로그 분석을 위해 로그를 정규화하여 저장하고, 효율적으로 관리하기 위한 로그 압축 보관 툴이 필요합니다. 또한 시스템 로그와 애플리케이션 로그 등 각 IT 인프라에서 발생하는 수많은 로그들은 빅데이터의 영역에 속합니다. 따라서 이를 중앙집중적으로 처리하여 효과적으로 분석하고 관리하는 도구가 필요하죠. │SIEM의 주요구성 SIEM은 네트워크 범위의 로그를 수집하고, 저장하며, 분석하는 기능을 갖고 있는데요. SIEM의 구성도 그림을 통해 좀 더 자세히 살펴보겠습니다. 로그 수집 SIEM은 서버, 네트워크, 보안장비, 클라우드 등 다양한 IT 인프라에서 발생하는 로그 데이터를 Syslog나 SNMP 등을 이용해 로그와 이벤트를 모아 Collector에 수집합니다. 이를 위해 직접 대상 장비에 Agent/Agentless 방식을 활용하거나, 클라우드의 경우 API 연동을 통해 다양한 방식으로 로그를 수집하죠. 실시간으로 발생되는 로그 수집은 물론, 방화벽/IDS/IPS 등 다양한 보안 장비에 대한 로그 데이터 수집이 필요합니다. 로그 저장 로그 수집뿐만 아니라 로그 저장 역시 중요합니다. 주로 ELK Stack을 활용하거나 수집 로그에 대한 분산 처리/저장 엔진을 활용하여, 로그를 저장하게 되는데요. 주로 관계형 데이터베이스에 자제적으로 저장하는 경우가 많습니다. 인덱싱 속도와 효율을 높이기 위해 ELK Stack을 활용하여, 로그를 저장하는 것 역시 좋은 대안이 될 수 있죠. 로그 분석 로그를 수집하고 저장한 다음 단계는 로그를 분석하는 것입니다. 이때 중요한 과정이 '파싱(Parsing)'입니다. 파싱은 비정형 로그 데이터를 쿼리가 가능한 구조화된 형태로 변환하는 과정입니다. 쉽게 말해, 파싱은 비정형 로그 데이터를 자르고 인덱스를 추가하여(key-value 형식으로) 보다 쉽게 식별할 수 있습니다. 이처럼 파싱을 통해 로그를 유형별로 분류하고, 정규화 및 표준화 작업을 거쳐, 분석에 필요한 정제된 로그를 추출합니다. 이렇나 정제된 로그는 분석 과정에서 매우 유용하게 사용됩니다. 시각화 및 리포팅 수집된 로그의 핵심 지표와 요약 이벤트를 설정하여, 시각화해서 볼 수 있습니다. 또한 사용자 정의 기반의 대시보드를 통해, 다양한 컴포넌트를 활용한 로그 데이터의 시각화와 리포팅 기능 역시 제공해야 합니다. │SIEM 도입 시 얻을 수 있는 5가지 앞에서도 SIEM에 대한 이점을 잠깐 언급했지만, 사실 이밖에도 여러 특장점이 있는데요. 그 중 대표적으로 5가지를 소개해 드릴게요. 첫째, 보안 수준의 강화 기존의 ESM(Enterprise Security Management)과는 다르게 SIEM은, 많은 양의 로그 데이터를 상관 분석하여 보안 위협을 찾아낼 수 있습니다. 기업 내 정보시스템의 보안 이벤트를 관리해서, 내부와 외부를 가리지 않고 기업 전반의 통합 보안 관리가 가능해지죠. 둘째, 통합 로그 관리 [그림] Zenius SIEM : 요약뷰 다양한 레거시 인프라와 클라우드에서 발생하는 로그를 하나의 플랫폼으로 일원화하여, 로그 관리가 훨씬 쉬워집니다. 장기간 데이터를 저장하고 모든 인프라에서 발생하는 로그를 파싱하여 관리하면, 관리 포인트를 한 곳으로 모을 수 있어 기업에서는 비용과 시간을 크게 절약할 수 있습니다. 셋째, 인덱싱을 통한 로그 검색 [그림] Zenius SIEM : 호스트 및 로그유형 트리 검색 기능 호스트 및 로그 유형 별로 검색어와 조건을 설정해서 로그를 검색할 수 있습니다. 특정 시간대나 특정 검색어를 통해, 대용량의 로그 중 일부만을 추출하여 분석할 수 있어 로그 분석이 훨씬 용이해집니다. 넷째, 보안 감시 설정 및 상관 분석 [그림] Zenius SIEM : 상관분석 감시설정 수집된 다양한 로그들의 상관관계를 분석하면 더 가치 있고 유의미한 이벤트를 확인할 수 있습니다. 예를 들어 방화벽 접속 로그에서 유해 IP나 등록되지 않은 IP로의 접근을 이벤트로 설정하면, 유해 IP를 실시간으로 확인할 수 있습니다. 또한 보안 위협 상황과 거래 이상 탐지 등 시나리오 기반으로 이벤트를 정의하고 자동으로 탐지할 수 있는 상관 분석 기능도 사용할 수 있습니다. 다섯째, 컴플라이언스 준수를 위한 측면 최근 몇 년간 기업들이 고객의 개인정보를 더 잘 보호하도록 법이 강화되었습니다. 특히 해킹과 개인정보 침해 사건이 늘어나면서 기업들이 보안을 철저히 해야 할 필요성이 커졌는데요. SIEM을 이용하면 이러한 보안 요구사항을 충족하는 데 큰 도움이 됩니다. KISA에서 권고하는 정보보호 및 개인정보보호 관리체계(ISMS-P)에서는 서버, 보안 시스템 등에 대한 사용자 접속 기록과 시스템 로그를 6개월 이상 저장하고, 이를 안전하게 관리해야 한다고 명시하고 있습니다. 또한 개인정보보호법과 정보통신망법에 따르면 로그는 1년 이상 보관해야 하고, 위조나 변조를 막기 위해 물리적인 서버에 저장하고 정기적으로 백업을 해야 하죠. 하지만 SIEM 시스템을 도입하면 이러한 법적 요구사항을 쉽게 준수할 수 있습니다. 따라서, 기업은 고객의 개인정보를 안전하게 보호하고, 침해사고 발생 시 빠르게 대응할 수 있습니다. 이번 시간에는 SIEM이 왜 중요하고, 어떤 특장점이 있는지 자세히 알아보았습니다. 요즘 기업에서는 보안 관련 요소들을 각각 관리하는 것이 쉽지 않습니다. 특히 규모가 큰 기업이나 보안이 중요한 공공기관의 경우에는 통합 관리 시스템이 꼭 필요하죠. 따라서, Zenius SIEM과 같은 솔루션을 통해 로그 관리를 안정적이고 효율적으로 해보는 건 어떨까요? 🔍더보기 Zenius SIEM으로 로그 관리하기
2024.07.29
다음 슬라이드 보기