반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
스토리지 관리
예방 점검
APM Solution
애플리케이션 관리
URL 관리
브라우저 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
AI 인공지능
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
최신이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
[브레인저가 알려주는 IT#1] 네트워크 관리, SNMP가 뭔가요?
카프카를 통한 로그 관리 방법
김채욱
2023.09.19
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
메모리 누수 위험있는 FinalReference 참조 분석하기
안녕하세요! 저는 개발4그룹에서 제니우스(Zenius) SIEM의 로그 관리 기능 개발을 담당하고 있는 김채욱 입니다. 제가 하고 있는 일은 실시간으로 대용량 로그 데이터를 수집하여 분석 후, 사용자에게 가치 있는 정보를 시각화하여 보여주는 일입니다.
이번 글에서 다룰 내용은
1) 그동안 로그(Log)에 대해 조사한 것과 2) 최근에 CCDAK 카프카 자격증을 딴 기념으로, 카프카(Kafka)를 이용하여 어떻게 로그 관리를 하는지
에 대해 이야기해 보겠습니다.
PART1. 로그
1. 로그의 표면적 형태
로그(Log)는 기본적으로 시스템의 일련된 동작이나 사건의 기록입니다. 시스템의 일기장과도 같죠. 로그를 통해 특정 시간에 시스템에서 ‘어떤 일’이 일어났는지 파악할 수도 있습니다. 이렇게 로그는 시간에 따른 시스템의 동작을 기록하고, 정보는 순차적으로 저장됩니다.
이처럼
로그의 핵심 개념은 ‘시간’
입니다. 순차적으로 발생된 로그를 통해 시스템의 동작을 이해하며, 일종의 생활기록부 역할을 하죠. 시스템 내에서 어떤 행동이 발생하였고, 어떤 문제가 일어났으며, 유저와의 어떤 교류가 일어났는지 모두 알 수 있습니다.
만약 시간의 개념이 없다면 어떻게 될까요? 발생한 모든 일들이 뒤섞이며, 로그 해석을 하는데 어려움이 생기겠죠.
이처럼 로그를 통해 시스템은 과거의 변화를 추적합니다. 똑같은 상황이 주어지면 항상 같은 결과를 내놓는 ‘결정론적’인 동작을 보장할 수 있죠. 로그의 중요성, 이제 조금 이해가 되실까요?
2. 로그와 카프카의 관계
자, 그렇다면! 로그(Log)와 카프카(Kafka)는 어떤 관계일까요? 우선 카프카는 분산 스트리밍 플랫폼으로서, 실시간으로 대용량의 데이터를 처리하고 전송하는데 탁월한 성능을 자랑합니다. 그 중심에는 바로 ‘로그’라는 개념이 있는데요. 좀 더 자세히 짚고 넘어가 보겠습니다.
3. 카프카에서의 로그 시스템
카프카에서의 로그 시스템은, 단순히 시스템의 에러나 이벤트를 기록하는 것만이 아닙니다. 연속된 데이터 레코드들의 스트림을 의미하며, 이를 ‘토픽(Topic)’이라는 카테고리로 구분하죠. 각 토픽은 다시 *파티션(Partition)으로 나누어, 단일 혹은 여러 서버에 분산 저장됩니다. 이렇게 분산 저장되는 로그 데이터는, 높은 내구성과 가용성을 보장합니다.
*파티션(Partition): 하드디스크를 논리적으로 나눈 구역
4. 카프카가 로그를 사용하는 이유
로그의 순차적인 특성은 카프카의 ‘핵심 아키텍처’와 깊게 연결되어 있습니다. 로그를 사용하면,
데이터의 순서를 보장할 수 있어 대용량의 데이터 스트림을 효율적
으로 처리할 수 있기 때문이죠. 데이터를 ‘영구적’으로 저장할 수 있어,
데이터 손실 위험 또한 크게 줄어
듭니다.
로그를 사용하는 또 다른 이유는 ‘장애 복구’
입니다. 서버가 장애로 인해 중단되었다가 다시 시작되면, 저장된 로그를 이용하여 이전 상태로 복구할 수 있게 되죠. 이는 ‘카프카가 높은 가용성’을 보장하는 데 중요한 요소입니다.
∴
로그 요약
로그는 단순한 시스템 메시지를 넘어 ‘데이터 스트림’의 핵심 요소로 활용됩니다. 카프카와 같은 현대의 데이터 처리 시스템은
로그의 이러한 특성을 극대화하여, 대용량의 실시간 데이터 스트림을 효율적으로 처리
할 수 있는 거죠. 로그의 중요성을 다시 한번 깨닫게 되는 순간이네요!
PART2. 카프카
로그에 이어 에 대해 설명하겠습니다. 들어가기에 앞서 가볍게 ‘구조’부터 알아가 볼까요?
1. 카프카 구조
· 브로커(Broker)
브로커는 *클러스터(Cluster) 안에 구성된 여러 서버 중 각 서버를 의미합니다. 이러한 브로커들은, 레코드 형태인 메시지 데이터의 저장과 검색 및 컨슈머에게 전달하고 관리합니다.
*클러스터(Cluster): 여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합
데이터 분배와 중복성도 촉진합니다. 브로커에 문제가 발생하면, 데이터가 여러 브로커에 데이터가 복제되어 데이터 손실이 되지 않죠.
·
프로듀서(Producer)
프로듀서는 토픽에 레코드를 전송 또는 생성하는 *엔터티(Entity)입니다. 카프카 생태계에서 ‘데이터의 진입점’ 역할도 함께 하고 있죠. 레코드가 전송될 토픽 및 파티션도 결정할 수 있습니다.
*엔터티(Entity): 업무에 필요한 정보를 저장하고 관리하는 집합적인 것
·
컨슈머(Consumer)
컨슈머는 토픽에서 레코드를 읽습니다. 하나 이상의 토픽을 구독하고, 브로커로부터 레코드를 소비합니다. 데이터의 출구점을 나타내기도 하며, 프로듀서에 의해 전송된 메시지를 최종적으로 읽히고 처리되도록 합니다.
·
토픽(Topic)
토픽은 프로듀서로부터 전송된 레코드 카테고리입니다. 각 토픽은 파티션으로 나뉘며, 이 파티션은 브로커 간에 복제됩니다.
카프카로 들어오는 데이터를 조직화하고, 분류하는 방법을 제공하기도 합니다. 파티션으로 나눔으로써 카프카는 ‘수평 확장성과 장애 허용성’을 보장합니다.
·
주키퍼(ZooKeeper)
주키퍼는 브로커를 관리하고 조정하는 데 도움을 주는 ‘중앙 관리소’입니다. 클러스터 노드의 상태, 토픽 *메타데이터(Metadata) 등의 상태를 추적합니다.
*메타데이터(Metadata): 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터
카프카는 분산 조정을 위해 주키퍼에 의존합니다. 주키퍼는 브로커에 문제가 발생하면, 다른 브로커에 알리고 클러스터 전체에 일관된 데이터를 보장하죠.
∴
카프카 구조 요약
요약한다면 카프카는
1) 복잡하지만 견고한 아키텍처 2) 대규모 스트림 데이터를 실시간으로 처리하는 데 있어 안정적이고 장애 허용성이 있음 3) 고도로 확장 가능한 플랫폼을 제공
으로 정리할 수 있습니다.
이처럼 카프카가 큰 데이터 환경에서 ‘어떻게’ 정보 흐름을 관리하고 최적화하는지 5가지의 구조를 통해 살펴보았습니다. 이제 카프카에 대해 조금 더 명확한 그림이 그려지지 않나요?
2. 컨슈머 그룹과 성능을 위한 탐색
카프카의 가장 주목할 만한 특징 중 하나는
‘컨슈머 그룹의 구현’
입니다. 이는 카프카의 확장성과 성능 잠재력을 이해하는 데 중심적인 개념이죠.
컨슈머 그룹 이해하기
카프카의 핵심은
‘메시지를 생산하고 소비’
하는 것입니다. 그런데 수백만, 심지어 수십억의 메시지가 흐르고 있을 때 어떻게 효율적으로 소비될까요?
여기서 컨슈머 그룹(Consumer Group)이 등장합니다. 컨슈머 그룹은, 하나 또는 그 이상의 컨슈머로 구성되어 하나 또는 여러 토픽에서 메시지를 소비하는데 협력합니다. 그렇다면 왜 효율적인지 알아보겠습니다.
·
로드 밸런싱:
하나의 컨슈머가 모든 메시지를 처리하는 대신, 그룹이 부하를 분산할 수 있습니다. 토픽의 각 파티션은 그룹 내에서 정확히 하나의 컨슈머에 의해 소비됩니다. 이는 메시지가 더 빠르고 효율적으로 처리된다는 것을 보장합니다.
·
장애 허용성:
컨슈머에 문제가 발생하면, 그룹 내의 다른 컨슈머가 그 파티션을 인수하여 메시지 처리에 차질이 없도록 합니다.
·
유연성:
데이터 흐름이 변함에 따라 그룹에서 컨슈머를 쉽게 추가하거나 제거합니다. 이에 따라 증가하거나 감소하는 부하를 처리할 수 있습니다.
여기까지는 최적의 성능을 위한 ‘카프카 튜닝 컨슈머 그룹의 기본 사항’을 다루었으니, 이와 관련된 ‘성능 튜닝 전략’에 대해 알아볼까요?
성능 튜닝 전략
·
파티션 전략:
토픽의 파티션 수는, 얼마나 많은 컨슈머가 활성화되어 메시지를 소비할 수 있는지 영향을 줍니다. 더 많은 파티션은 더 많은 컨슈머가 병렬로 작동할 수 있음을 의미하는 거죠. 그러나 너무 많은 파티션은 *오버헤드를 야기할 수 있습니다.
*오버헤드: 어떤 처리를 하기 위해 간접적인 처리 시간
·
컨슈머 구성:
*fetch.min.bytes 및 *fetch.max.wait.ms와 같은 매개변수를 조정합니다. 그다음 한 번에 얼마나 많은 데이터를 컨슈머가 가져오는지 제어합니다. 이러한 최적화를 통해 브로커에게 요청하는 횟수를 줄이고, 처리량을 높입니다.
*fetch.min.bytes: 한 번에 가져올 수 있는 최소 데이터 사이즈 *fetch.max.wait.ms: 데이터가 최소 크기가 될 때까지 기다릴 시간
·
메시지 배치:
프로듀서는 메시지를 함께 배치하여 처리량을 높일 수 있게 구성됩니다. *batch.size 및 *linger.ms와 같은 매개변수를 조정하여, 대기 시간과 처리량 사이의 균형을 찾을 수 있게 되죠.
*batch.size: 한 번에 모델이 학습하는 데이터 샘플의 개수 *linger.ms: 전송 대기 시간
·
압축:
카프카는 메시지 압축을 지원하여 전송 및 저장되는 데이터의 양을 줄입니다. 이로 인해 전송 속도가 빨라지고 전체 성능이 향상될 수 있습니다.
·
로그 정리 정책:
카프카 토픽은, 설정된 기간 또는 크기 동안 메시지를 유지할 수 있습니다. 보존 정책을 조정하면, 브로커가 저장 공간이 부족해지는 점과 성능이 저하되는 점을 방지할 수 있습니다.
3. 컨슈머 그룹과 성능을 위한 실제 코드 예시
다음 그림과 같은 코드를 보며 조금 더 자세히 살펴보겠습니다. NodeJS 코드 중 일부를 발췌했습니다. 카프카 설치 시에 사용되는 설정 파일 *server.properties에서 파티션의 개수를 CPU 코어 수와 같게 설정하는 코드입니다. 이에 대한 장점들을 쭉 살펴볼까요?
*server.properties: 마인크래프트 서버 옵션을 설정할 수 있는 파일
CPU 코어 수에 파티션 수를 맞추었을 때의 장점
·
최적화된 리소스 활용:
카프카에서는 각 파티션이 읽기와 쓰기를 위한 자체 *I/O(입출력) 스레드를 종종 운영합니다. 사용 가능한 CPU 코어 수와 파티션 수를 일치시키면, 각 코어가 특정 파티션의 I/O 작업을 처리합니다. 이 동시성은 리소스에서 최대의 성능을 추출하는 데 도움 됩니다.
·
최대 병렬 처리:
카프카의 설계 철학은 ‘병렬 데이터 처리’를 중심으로 합니다. 코어 수와 파티션 수 사이의 일치는, 동시에 처리되어 처리량을 높일 수 있습니다.
·
간소화된 용량 계획:
이 접근 방식은, 리소스 계획에 대한 명확한 기준을 제공합니다. 성능 병목이 발생하면 CPU에 *바인딩(Binding)되어 있는지 명확하게 알 수 있습니다. 인프라를 정확하게 조정할 수도 있게 되죠.
*바인딩(Binding): 두 프로그래밍 언어를 이어주는 래퍼 라이브러리
·
오버헤드 감소:
병렬 처리와 오버헤드 사이의 균형은 미묘합니다. 파티션 증가는 병렬 처리를 촉진할 수 있습니다. 하지만 더 많은 주키퍼 부하, 브로커 시작 시간 연장, 리더 선거 빈도 증가와 같은 오버헤드도 가져올 수도 있습니다. 파티션을 CPU 코어에 맞추는 것은 균형을 이룰 수 있게 합니다.
다음은 프로세스 수를 CPU 코어 수만큼 생성하여, 토픽의 파티션 개수와 일치시킨 코드에 대한 장점입니다.
파티션 수와 컨슈머 프로세스 수 일치의 장점
·
최적의 병렬 처리:
카프카 파티션의 각각은 동시에 처리될 수 있습니다. 컨슈머 수가 파티션 수와 일치하면, 각 컨슈머는 특정 파티션에서 메시지를 독립적으로 소비할 수 있게 되죠. 따라서 병렬 처리가 향상됩니다.
·
리소스 효율성:
파티션 수와 컨슈머 수가 일치하면, 각 컨슈머가 처리하는 데이터의 양이 균등하게 분배됩니다. 이로 인해 전체 시스템의 리소스 사용이 균형을 이루게 되죠.
·
탄력성과 확장성:
트래픽이 증가하면, 추가적인 컨슈머를 컨슈머 그룹에 추가하여 처리 능력을 증가시킵니다. 동일한 방식으로 트래픽이 감소하면 컨슈머를 줄여 리소스를 절약할 수 있습니다.
·
고가용성과 오류 회복:
컨슈머 중 하나가 실패하면, 해당 컨슈머가 처리하던 파티션은 다른 컨슈머에게 자동 재분배됩니다. 이를 통해 시스템 내의 다른 컨슈머가 실패한 컨슈머의 작업을 빠르게 인수하여, 메시지 처리가 중단되지 않습니다.
마지막으로 각 프로세스별 컨슈머를 생성해서 토픽에 구독 후, 소비하는 과정을 나타낸 소스코드입니다.
∴
컨슈머 그룹 요약
컨슈머 그룹은 높은 처리량과 장애 허용성 있는 메시지 소비를 제공하는 능력이 핵심입니다. 카프카가 어떤 식으로 운영되는지에 대한 상세한 부분을 이해하고 다양한 매개변수를 신중하게 조정한다면, 어떠한 상황에서도 카프카의 최대 성능을 이끌어낼 수 있습니다!
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
©
참고 자료
· Jay Kreps, “I Hearts Logs”, Confluent
· 위키피디아, “Logging(computing)”
· Confluent, “https://docs.confluent.io/kafka/overview.html”
· Neha Narkhede, Gwen Shapira, Todd Palino, “Kafka: The Definitive Guide”
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
#LOG
#로그
#카프카
#컨슈머
#KAFKA
#SIEM
#제니우스
김채욱
개발4그룹
실시간 대용량 로그 데이터의 수집 및 가공에 관심을 가지고 있습니다. 함께 발전해 나가는 개발을 추구합니다.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
ITSM (IT Service management) 솔루션의 4가지 필수 조건
ITSM (IT Service management) 솔루션의 4가지 필수 조건
IT 운영의 효율성을 높이고, 서비스 품질을 지속적으로 개선하는 것은 기업의 중요한 과제 중 하나입니다. 특히, IT 환경이 점점 복잡해짐에 따라, 체계적인 IT 서비스 관리(ITSM) 솔루션의 도입이 핵심 요소로 자리 잡고 있습니다. 하지만 모든 ITSM 솔루션이 동일한 기능과 효과를 제공하는 것은 아닙니다. 기업마다 IT 환경과 운영 방식이 다르기 때문에, 각각의 환경에 적합한 ITSM 솔루션을 선택하는 것이 필수적입니다. 올바른 솔루션을 도입하면 IT 서비스 요청을 체계적으로 관리하고, 장애 대응과 변경 관리를 효율적으로 수행하며, 운영 데이터를 기반으로 서비스 품질을 지속적으로 개선할 수 있습니다. 따라서 ITSM 솔루션을 도입할 때는 몇 가지 핵심 요소를 신중하게 검토해야 하는데요, ITSM솔루션 도입 시 고려해야 할 4가지 핵심 요소를 자세히 살펴보겠습니다. ITSM (IT Service management) 솔루션의 필수조건 ① 표준화된 프로세스 구축과 안정적인 관리 지원 ITSM 솔루션을 효과적으로 운영하려면 IT 서비스 제공 및 장애 대응을 포함한 운영 방식에 맞는 프로세스를 구축하고 이를 안정적으로 유지하는 것이 중요합니다. 이를 위해 표준화된 구축 절차, 지속적인 유지보수 지원, 그리고 BPMN 준수 및 CMDB 기반의 기술적 역량이 필수적인 역할을 합니다. ITSM 솔루션은 도입 후 안정적인 운영이 가능하도록 체계적인 프로세스 설계를 지원해야 하며, 운영 환경에 맞춰 최적화할 수 있는 유연한 구조를 갖추어야 합니다. 또한, 구축된 프로세스가 실제 업무에 효과적으로 적용될 수 있도록 유지보수 및 개선이 지속적으로 이루어져야 하며, IT 운영팀이 프로세스를 내재화하고 활용할 수 있도록 체계적인 지원이 필요합니다. 특히, BPMN(Business Process Model and Notation) 준수 및 CMDB(Configuration Management Database) 기술을 갖춘 ITSM 솔루션은 IT 서비스 프로세스를 명확하게 정의하고 일관성 있게 운영하는 데 중요한 역할을 합니다. BPMN을 통해 서비스 요청, 변경 관리, 장애 대응 등의 프로세스를 명확하게 정의하고 유연하게 조정할 수 있습니다. CMDB를 활용하면 IT 자산과 구성 요소 간의 관계를 체계적으로 관리할 수 있습니다. 이를 통해 변경 사항의 영향을 사전에 분석하고, 서비스 관리를 일관되게 유지하며, IT 환경 변화에도 유연하게 대응할 수 있습니다. ITSM (IT Service management) 솔루션의 필수조건 ② ITIL을 활용한 체계적인 ITSM 운영 프로세스 구축 지원 IT 서비스를 안정적으로 운영하려면 표준화된 프로세스를 기반으로 관리 체계를 구축하는 것이 중요합니다. 이를 위해 ITSM 솔루션은 ITIL(IT Infrastructure Library) 프레임워크를 기반으로 설계되어야 하며, 이를 적용하면 서비스 요청 처리, 장애 대응, 변경 관리 등을 체계적으로 운영할 수 있어 서비스 가용성이 향상되고 운영 효율성이 개선됩니다. ITIL을 준수하는 ITSM 솔루션은 인시던트 관리, 문제 관리, 변경 관리, 서비스 수준(SLA) 관리 등의 핵심 프로세스를 지원해야 하며, 이를 통해 장애 발생 시 신속한 대응과 복구가 가능하고, 근본 원인을 분석하여 반복적인 장애를 예방할 수 있습니다. 또한, 변경 사항이 운영 환경에 미치는 영향을 최소화하여 안정적인 서비스 제공이 가능합니다. 특히, SLA 관리는 서비스 성과를 측정하고 운영 목표를 설정하는 기준이 되며, 성과 데이터를 분석하여 취약한 부분을 개선함으로써 IT 서비스 품질을 지속적으로 향상할 수 있습니다. 기업마다 IT 운영 방식이 다르므로, ITSM 솔루션이 BPMN 기반의 맞춤형 프로세스 설계를 지원해야 합니다. 이를 통해 기업은 서비스 요청, 변경 관리 등의 프로세스를 유연하게 구성하고 필요에 따라 수정 및 확장할 수 있습니다. 또한, SLA 기반 자동화 기능이 포함된 경우, 서비스 성과를 실시간으로 모니터링하고, 목표 기준을 활용한 성과 분석을 통해 서비스 이행 수준을 평가할 수 있습니다. 이를 통해 취약한 부분을 사전에 파악하고 개선 조치를 수행함으로써 IT 운영의 지속적인 개선과 최적화를 실현할 수 있습니다. ITSM (IT Service management) 솔루션의 필수조건 ③ IT 자산 및 구성 요소 관리 기능 IT 운영이 복잡해질수록 자산과 구성 요소를 체계적으로 관리하는 것이 서비스 안정성과 운영 효율성을 유지하는 데 중요한 역할을 합니다. 이를 위해ITSM 솔루션이 CMDB(Configuration Management Database) 기능을 지원하면 IT 인프라의 구성 정보를 통합적으로 관리하고, 자산의 변경 사항을 추적하며, 장애 발생 시 영향을 신속하게 분석할 수 있습니다. CMDB를 효과적으로 활용하면 IT 자산(서버, 네트워크 장비, 소프트웨어 등)의 상태와 관계를 명확하게 파악할 수 있으며, 변경 관리와 연계하여 IT 환경 변화가 서비스에 미치는 영향을 사전에 평가하고 리스크를 최소화할 수 있습니다. 이를 통해 운영팀은 자산의 무분별한 변경을 방지하고, 변경이 필요한 경우 사전 승인 및 검토 과정을 거쳐 안전하게 적용할 수 있습니다. 또한, ITSM 솔루션이 모니터링 시스템(EMS, APM, NMS 등)과 연계될 경우, IT 인프라의 실시간 상태를 추적하고 자산의 성능 및 장애 데이터를 분석하여 운영 효율성을 높이는 것이 가능합니다. 이를 통해 ITSM과 자산 관리를 통합하여 IT 인프라 전반의 가시성을 확보하고, 보다 정밀한 IT 운영 전략을 수립할 수 있습니다. 따라서 ITSM 솔루션을 선택할 때는 CMDB를 활용한 IT 자산 자동 감지 및 연관 관계 분석, 변경 관리 및 구성 감사 기능 지원, 자산의 라이프사이클 관리 및 사용량 최적화 기능 등이 포함되어 있는지 신중하게 검토하는 것이 중요합니다. ITSM (IT Service management) 솔루션의 필수조건 ④ 보안 및 규제준수 지원 ITSM 솔루션은 기업의 IT 서비스 운영 데이터를 보호하고 관리하는 역할을 하기 때문에, 강력한 보안 기능이 반드시 필요합니다. 특히, 역할 기반 접근 제어(RBAC)와 다중 인증(MFA) 기능을 통해 사용자 권한을 세밀하게 관리하고, 무단 접근을 방지해야 합니다. RBAC을 활용하면 역할과 권한에 따라 접근을 제한할 수 있으며, MFA를 적용하면 인증 단계를 강화하여 보안성을 높일 수 있습니다. 또한, ITSM 솔루션은 변경 사항을 추적하고 이상 징후를 감지할 수 있도록, 감사 로그(Audit Log) 및 보안 이벤트 모니터링 기능을 지원해야 합니다. 실시간 모니터링 및 감사 기능이 제공되면 보안 사고 발생 시 원인을 신속하게 파악하고, 즉각적인 대응 조치를 취할 수 있습니다. 이러한 기능은 보안 위협을 사전에 차단하고, 서비스 가용성을 유지하는 데 중요한 역할을 합니다. 보안 기능뿐만 아니라, ITSM 솔루션이 주요 보안 및 규제 요구사항을 충족하는지도 검토해야 합니다. 국제적으로는 ISO 27001(정보보안 관리 시스템)과 GDPR(유럽 개인정보보호법)이 대표적인 보안 규정이며, 국내에서는 ITSM 표준 운영절차(행정안전부 기준) 등이 적용됩니다. 이러한 규정을 준수하는 ITSM 솔루션을 도입하면, 기업은 IT 서비스 운영의 보안성을 유지하면서도 규제 요구사항을 효과적으로 관리할 수 있습니다. ITSM 솔루션을 도입하는 목적은 단순히 IT 서비스를 체계적으로 운영하는 것에 그치지 않습니다. 궁극적으로는 비즈니스 연속성을 강화하고, IT 서비스 품질을 개선하며, 운영 비용을 최적화하는 것이 핵심입니다. 이를 위해서는 기능적인 요소뿐만 아니라 확장성, 유지보수 편의성, 그리고 조직 내 IT 운영 방식과의 적합성까지 종합적으로 검토해야 합니다. 기업의 ITSM 전략이 단순한 도구 선택이 아니라 장기적인 IT 서비스 관리 체계 구축의 일환으로 접근할 필요가 있습니다.
2025.03.07
일잘러가 바라보는 브레인즈컴퍼니
일잘러가 바라보는 브레인즈컴퍼니
다음 인터뷰를 고민하던 차에 브레인즈컴퍼니에서는 누가 일을 잘할까?라는 궁금증이 생겼습니다. 여러 브레인저들에게 물어본 결과, 개발3그룹의 진광님을 많이 추천해줬는데요. 개발3그룹은 AI 기술을 적용한 차세대 제니우스와 애플리케이션 성능관리 솔루션인 제니우스 APM을 개발하고 있는 핵심 부서인데요. 이 부서는 올해 신입 개발자를 7명이나 채용해 제품 개발에 힘을 쏟고 있습니다. 브레인즈의 일잘러, 진광님이 말하는 브레인즈의 제품, 동료, 일하는 방식에 대해 들어보겠습니다. ----------------------------------------------------------------- Q1. 안녕하세요, 진광님. 자기 소개 부탁드립니다. 안녕하세요, 개발3그룹에서 근무 중인 김진광입니다. 저는 SI 개발자로 시작해 외산 미들웨어(WAS) 솔루션 회사에서 엔지니어로 제품 관련 서비스 및 컨설팅 업무를 담당했었어요. 이때 미들웨어와 서비스에 대한 모니터링 필요성을 생각하게 됐고, 기회가 돼 직전 회사에 합류 후 APM 제품들을 개발했습니다. 브레인즈컴퍼니는 당시 제가 근무 중이던 회사에서 APM제품을 OEM 하면서 연이 닿았어요. 다니던 회사의 방향성이 바뀌면서 이직을 결심했고, 브레인즈컴퍼니의 영업 및 TC팀 분들 추천으로 2017년에 입사하게 됐습니다. 당시 브레인즈컴퍼니는 자사 솔루션을 갖고 있었고, 제품 내재화 단계일 때라 매력을 느꼈습니다. Q2. 맡고 있는 업무에 대해 구체적으로 설명해주세요. 브레인즈컴퍼니의 Zenius APM 전반을 맡고 있습니다. APM은 특수성이 있는 제품이에요. 서비스 문제점을 찾는 솔루션이다 보니, 설치 및 기술 지원 뿐만 아니라 이슈 분석 등 전반적인 사이트 지원이 필요합니다. 그래서 처음에는 제품개발 외 설치, 데모, 성능 컨설팅 등 APM에 관련된 전반적인 부분을 지원했습니다. 이제는 TC팀에서 설치나 사이트 구축, 교육 및 고객 응대 등 전반적인 부분을 잘 지원해 주시고 있어 감사하게 생각하고 있습니다. Q3. 그렇다면, APM의 특장점은 무엇인가요? Zenius APM은 고객의 서비스에서 발생된 이벤트를 처리하고 분석하는 방식이 점점 좋아지고 있습니다. APM은 어플리케이션 서비스가 잘 되고 있는지, 사용자들이 어느 정도 쓰고 있고 응답 속도가 어느 정도 되는지를 항상 모니터링 하는게 기본적인 기능이고요. 문제 발생 시, 그 문제를 인지하고 조치하는 것이 2단계, 다음으로 장애 복구가 완료된 다음에 어떤 것이 문제의 원인이었는지를 찾아내는 것을 3단계로 볼 수 있어요. 문제의 원인은 고객이 쉽게 파악할 수 있도록 데이터들을 차트와 같이 시각화해서 제공하고 있고요. 브레인즈 대표 제품인 Zenius EMS는 전반적인 인프라(H/W)를 모니터링하는 것이고 APM은 그 위에서 서비스되는 어플리케이션(S/W)을 모니터링하는 것으로 보면 돼요. 서비스와 인프라를 같이 모니터링 해야 어떤 문제가 발생했을 때 어플리케이션 자체 문제인 건지, 기반한 서버나 네트워크와 같은 인프라 요소들이 영향을 미치는 것인지를 판단할 수 있어요. 그래서 APM과 기존의 자사 제품들이 더욱 잘 통합될 수 있도록 지속적으로 제품을 발전시켜 나가고 있습니다. Q4. 브레인즈에서 근무한 지 6년차에 접어드셨네요. 그 동안 근속할 수 있었던 브레인즈의 매력은 무엇인가요? 브레인즈컴퍼니는 제가 생각하고 있는 솔루션 회사의 조건에 가장 가까운 회사라고 생각합니다. 자사 솔루션을 보유하고 있고, 해당 분야를 리딩하고 있는 회사에서 일하고 싶었어요. 그런 회사가 국내에서는 많지 않다고 생각합니다. 또, 브레인즈는 동료들이 좋아요. 가장 개발자적 마인드를 많이 갖고 있는 분들이라고 생각합니다. 관제 분야에서 오랜 시간 깊은 전문성을 갖추고 계신 분들이고, 개발자로서도 자부심을 갖고 계신다고 생각해요. 마지막으로, 가족 친화적인 회사라는 점이요. 다양한 행사와 해외 연수, 복지 혜택 등도 부족함이 없는 회사입니다. 전 직원 연봉이 1000만원 상승하면서 처우도 좋아졌고요. Q5. 가장 힘들었던/보람을 느꼈던 순간은? 처음 APM을 설치했을 때. 첫 납품처가 의약품안전관리위원회였는데요. 아무래도 처음이라 우리 제품이 고객사의 서비스에 문제가 되는 것이 아닐까 하는 걱정이 많았어요. 문제가 발생했을 때, TC팀과 함께 어렵게 원인을 찾아내고 집중해서 해결했던 순간이 가장 기억에 남고 보람 있었습니다. Q6. 일을 잘해서 좋은 인사고과를 받으신다고 들었어요. 본인만의 일 잘하는 꿀팁은? 재밌게 일하는 편인 것 같아요. 가급적 일하는 것 자체를 즐기고, 성능 관리와 이슈를 발견하고 처리하는 일들에 관심이 많고 적성에도 잘 맞는 것 같습니다. 완벽주의자 성향이 있기도 하고요. 일이 잘못됐다고 판단되면 다시 처음부터 해야 하다 보니, 최대한 정보를 수집한 후 가장 좋은 방법에 대해 여러 번 생각하고 실행하는 스타일입니다. APM이 원하는 기능으로 나오도록 개발하는 것뿐만 아니라, APM을 사용하는 사용자의 편의성이나 설치 및 지원 팀, 그리고 제품을 소개하고 어필할 때 어떤 모습으로 보여질지에 대한 것 등 여러 가지 측면에서 생각하고 고민 후 실행에 옮기려고 노력하고 있습니다. 전체 작업 시간 중 50% 이상은 다양한 관점에서 고민하는 시간을 갖고 작업을 진행하고 있는 것 같아요. 또, 앞에서 말씀 드렸던 프로젝트 개발 경험과 미들웨어에 엔지니어로서의 경험이나 제품 개발 경력 등의 다양한 경력이 타 부서와의 협업이나 제품 개발, 사이트 지원 등에서 일할 때 많은 도움이 되는 것 같아요. 조금은 다양한 시각을 갖게 해주는 부분이 여러 면에서 도움되더라고요. 그래서 TC팀, 영업팀 등 타 부서 분들이 긍정적으로 봐주시는 것 같아요. (웃음) Q7. 진광님이 생각하는 브레인즈에서 일을 잘하는 사람은? TC팀에 APM 지원파트가 있는데요. 제 입장에서 가장 고마운 분들이기도 하고 대부분 일을 잘 하신다고 생각하고 있어요. 부서장인 영수님, APM에 열정적이신 종관님, APM 지원 파트리더 기현님, 정대님뿐만 아니라 일잘러 기열님까지 모두 잘 하시는 분들이라 생각해요. Q8. 이제 부서 이야기를 해볼게요. 개발3그룹 소개해주세요. 저희 부서는 차세대 제니우스와 APM 제품을 맡고 있어요. 부서장님은 구성원들과 대화하고 코딩하는 것을 좋아하세요. 관리자이지만, 여전히 계속 현업에서 개발하고자 하시는 열정 넘치는 분이십니다. (웃음) 교육도 직접 하시면서 신입 분들 일일이 다 봐주시고 있어요. 비슷한 시기에 들어온 신입 개발자들은 동기애가 느껴지고, 밝은 성격들이라 화기애애한 분위기가 형성돼 있습니다. Q9. 부서만의 일하는 방식은 무엇인가요? 그룹장님이 추구하는 방식이 “각자 알아서 잘 하자”예요. 서로 상의해서 어떤 일을 할 지 분배하고요. 그 이후는 개인의 계획과 독립적 부분을 인정해주는 등 최대한 자율성을 부여하고 있어요. 결과는 서로 공유하면서 평가해주고 있습니다. 신입이더라도 스스로 일을 처리하고 결과물을 갖고 그룹장님과 이야기하며 피드백을 받고 보완해나가는 형식으로 일하고 있어요. Q10. 새로운 동료가 합류한다면, 어떤 스타일의 동료와 함께 일하고 싶은가요? 개발직을 천직이라고 생각하는 사람. 이쪽 일을 한 번 해볼까하는 단순 호기심이 아니라, 전공자를 떠나서 앞으로 쭉 개발 일을 하고 싶은 사람이면 좋겠어요. 또, 일을 많이 하거나 빨리하기 보다는 개발자에 대한 자부심을 바탕으로 어떤 일이 발생하면 최선의 방법을 생각하는 스타일이면 좋겠습니다. 시간이 좀 걸리더라도 충분히 고민하고 행동으로 옮기는 사람을 선호해요. Q11. 5년 후 본인의 모습과 앞으로의 목표는? APM도 유기적으로 발전하는 방향으로 개발해 나가겠지만, APM 말고 새로운 제품도 만들어 보고 싶어요. 데이터 시각화에도 관심이 많은데, 기회가 된다면 새로운 분야와 관련된 솔루션에 도전해보고 싶습니다. 향후에도 관리자보다는 개발자로서 계속 일을 해 나갈 수 있었으면 좋겠습니다.
2022.11.07
브레인저가 되면 누릴 수 있는 것들 ㅣ (2) 아침식사 편
브레인저가 되면 누릴 수 있는 것들 ㅣ (2) 아침식사 편
오늘 아침, 식사는 하셨나요? 직장인들이 바쁜 아침 시간에 식사를 든든히 챙겨 먹고 출근하기란 참 힘든 일인 것 같습니다. 밥 보다는 잠을 선택하는 분들도 많을 텐데요. 출근 후에는 공복에 커피를 마시는 경우가 다반사라, 직장인들의 건강 관리가 절실해 보입니다. 브레인즈컴퍼니는 브레인저들이 하루를 활기차게 시작하고, 건강한 생활을 유지할 수 있도록 아침식사를 제공하고 있습니다. 브레인즈컴퍼니의 아침은 8층 라운지에서 제공하며, 우유, 주스, 탄산수 등 다양한 무료 음료와 더불어 커피머신으로 바로 내린 커피와 함께 섭취할 수 있습니다. 아침식사 메뉴는 월∙금 김밥, 화∙수∙목은 샌드위치/유부초밥/볶음밥/주먹밥 등 랜덤으로 제공되고 있습니다. 회사에서 제공되는 아침은 직원 건강뿐만 아니라 생산성과도 직결되는데요. 직접 아침을 차려 먹지 않아도 되니, 출근 준비가 수월해지고 지각이 줄어드는 효과가 있습니다. 또, 타 부서 직원들과 함께 아침을 먹을 수 있어, 부서 간 장벽을 낮추고 사내 소통에도 유용합니다. 아침식사는 브레인저들이 가장 만족도가 높은 복지 중 하나인데요. 매일 아침을 챙겨 먹는 한 브레인저는 “매일 다른 메뉴로 아침을 먹을 수 있어 좋아요. 동료들과 같이 식사를 하면서 어제 퇴근 후에 뭐했는지, 요즘 어떤 취미가 있었는지 등 서로를 알아가는 재미도 쏠쏠하고요. 간혹 혼자 좋아하는 유튜브를 보면서 먹기도 해요. 그리고 카페테리아에 식사와 함께 할 수 있는 원두 커피나 각종 음료가 준비돼 있어 더 좋은 것 같아요.”라고 전해왔습니다. 이처럼 브레인저들은 “먹거리는 부족해선 안된다”는 선근님의 철칙 덕분에, 항상 든든하게 하루를 시작하고 있습니다. 참고로 아침뿐만 아니라 행사가 있는 날이면 항상 음식을 넉넉하게 주문해, 출출한 오후 시간에 브레인저들의 간식으로도 활용하고 있습니다. 이 글을 읽고 있을 예비 브레인저분들! 브레인즈컴퍼니에 합류해 첫 출근하는 날, 꼭 8층 라운지에 들러 아침식사 챙겨 드세요. 냉장고에 있는 음료도 편하게 꺼내 드시면 돼요.
2022.11.09
통합로그관리가 필요한 3가지 이유
통합로그관리가 필요한 3가지 이유
로그는 IT 인프라에서 발생하는 모든 상황들을 기록한 데이터입니다. 쉽게 말해 사용자가 어떤 루트로 사이트에 접속했고, 접속한 시점부터 어떤 행동을 취했는지가 모두 기록으로 남게 되는데, 이 기록들이 로그입니다. 로그는 IT 환경에서 가장 많이 발생하지만, 데이터 처리 기술이 발달하지 않았던 시기에는 처리 비용에 비해 가치가 낮은 데이터로 여겨졌습니다. 하지만 최근들어 IT 서비스와 인프라가 다양해지고 디지털 트랜스포메이션이 가속화되면서, 로그의 양이 기하급수적으로 증가하고 사물인터넷(IoT), 빅데이터 등과 같은 신기술이 발전하면서 그 효용성 또한 날로 증가하고 있습니다. 그렇다면, 이 로그는 실제로 어떻게 활용될까요? 개발 영역에서는 버그 혹은 크래시율 수집 및 상시 트래킹, 이슈 발생 후 롤백 및 대응, 특정 기능에 대한 사용성 진단에 활용됩니다. 마케팅 분야는 채널별 ROI 진단 및 비용 최적화, 배너/프로모션/이벤트 효과 측정, 유저 세그멘테이션 및 타게팅에 사용합니다. 기획 및 디자인 영역은 기능 개선을 위한 A/B 테스트, 유저 Journey 경로 분석을 통한 UX/UI 최적화 등에서 쓰이고 있습니다. 이처럼 여러 영역에서 다양하게 쓰이는 로그를 관리하지 않고 방치해두면 어떤 일이 발생할까요? 통합로그관리가 필요한 이유에 대해 알아보겠습니다. ----------------------------------------------- I. 보안 대응체계 구축 저장만 하고 관리되지 않은 로그는 IT 시스템의 장애나 문제 발생 시 그 원인을 찾아내기가 어렵습니다. 또, 로그 데이터의 중요 정보가 외부로 유출될 위험도 커집니다. 끊임없이 발생하는 보안 사고에 대비하기 위해 통합로그관리는 반드시 필요합니다. 관리된 로그는 장애나 사고 발생 시에 그 원인을 파악하고 빠른 대처를 위한 근거 데이터로 사용할 수 있으며, 보안 체계를 마련하는 데에도 활용가능 합니다. 기업들은 로그관리 제품을 사용해 사이버 침해위협을 예방 및 감시하고, 정기적인 로그분석을 통해 강력한 보안대응체계를 구축하고 있습니다. 통합로그관리 솔루션은 보안장비(Firewall, IDC, IPS 등)의 로그와 해킹, 악성코드 등 보안/침해 관련 로그를 지속적으로 분석해 예방 체계를 구축합니다. 또, 대용량 로그의 상관분석을 통해 보안위협을 탐지하고 이상징후를 모니터링하는 등 강력한 보안 대응체계를 구축할 수 있습니다. II. 컴플라이언스 준수 로그는 보안 사고가 발생했을 때 가장 기본적인 증거 및 모니터링 자료로 활용됩니다. 이에 따라 정부에서는 데이터 관리에 대해 각종 법률을 규정하고 있어, 공공기관을 비롯한 개인정보를 다루는 온라인 사업자 및 기업 등은 해당 법규를 준수해야 합니다. 안전한 데이터 이용을 위해 2018년에 발의된 '데이터 3법' 개정안은 2020년 1월 9일 국회 본회의를 통과했습니다. 데이터 3법은 개인정보 보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률 등 3가지 법률을 통칭합니다. 로그 관리 관련 규제의 주요 내용은 다음과 같습니다. i. 개인정보보호를 위해 접근 권한 부여, 변경 또는 말소 기록을 3년 이상 보관해야 합니다. ii. 개인정보 취급자는 개인정보처리시스템의 접속기록을 월 1회 이상 점검해야 하고, 그 활동의 증거를 남기기 위해 시스템에 접속했다는 기록을 1년 이상 보관해야 합니다. iii. 정보통신서비스 제공자는 접근 권한 내역을 5년간 보관하고, 접속 기록의 위·변조 방지를 위해 반드시 백업 보관해야 합니다. III. 빅데이터 처리 플랫폼 IT 인프라 확대 및 기타 비정형 로그 유입에 따라 대용량 로그에 대한 관리가 요구되고 있습니다. 특히 수집된 로그를 실시간으로 분석∙판단해 IT 서비스의 안정적 운영을 도모해야 하는 수요가 증대되고 있는데요. 오늘날의 데이터는 기존 데이터에 비해 양이 매우 방대해 기존 방법이나 도구로는 관리가 어렵습니다. 따라서 빅데이터 기술을 기반으로 하는 대용량 통합 로그관리 솔루션은 이제 IT 운영을 위한 필수 솔루션으로 자리잡았습니다. ----------------------------------------------- 이처럼 기업은 보안위협 및 이상징후 대응/컴플라이언스 준수/대용량 로그 관리를 위해 통합로그관리 솔루션을 필수로 갖춰야합니다. 브레인즈컴퍼니의 통합로그관리 솔루션 '제니우스(Zenius) Logmanager'는 이기종 장비에서 발생되는 정형∙비정형 로그 데이터의 수집/분석/관리 등을 위한 빅데이터 플랫폼입니다. 제니우스 로그매니저가 어떻게 구성돼 있는지 살펴보겠습니다. 제니우스 로그매니저는 정형/반정형 또는 비정형 로그에 대한 실시간 수집 및 신속한 분석 기능을 제공하며, 이러한 정보들을 다양한 차트와 대시보드를 통해 직관적으로 가시화합니다. 특히 로그매니저는 독보적인 인덱싱 및 검색 속도를 제공하며 확장성, 편의성, 효율성, 호환성 등의 특장점을 보유한 제품입니다. 로그 이벤트 발생 시 즉각적인 알람을 통해 빠른 문제 해결과 높은 가용성을 확보하도록 지원합니다.
2022.11.10
다음 슬라이드 보기