반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
AI 인공지능
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
APM Solution
애플리케이션 관리
URL 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
최신이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
최신이야기
검색
기술이야기
좋은 대시보드(Dashboard) 설계를 위한 4가지 핵심 가이드
기술이야기
좋은 대시보드(Dashboard) 설계를 위한 4가지 핵심 가이드
급변하는 IT 환경에서 우리는 많은 데이터를 접하고 있습니다. 이러한 방대한 데이터를 효율적으로 관리하고 시각화하기 위해 '대시보드'가 등장한 후 널리 활용되고 있습니다. 대시보드(Dashboard)는 필요한 데이터를 통합하여 시각화하는 화면으로, 사용자에게 중요한 정보를 한눈에 보여주는 도구입니다. 2023년 가트너(Gartner) 연구에 따르면, 전 세계 기업 72%가 데이터 시각화 도구를 사용하고 있기도 합니다. 데이터 시각화 도구를 활용한 기업이 비활용 기업에 비해 의사 결정 속도가 5배 빠르다는 연구 결과도 나왔죠. 그렇다면 기업운영에 있어 대시보드가 왜 중요한지, 좀 더 자세히 살펴보겠습니다. │대시보드(Dashboard), 왜 중요할까요? 대시보드가 중요한 이유는 여러 가지 있지만, 그중에서도 가장 핵심적인 이유는 다음과 같습니다. 첫째, 대시보드는 빠르고 정확한 의사 결정을 가능하게 합니다. 대시보드는 실시간으로 데이터를 시각화하고 중요한 정보를 즉각적으로 제공하여, 빠르고 정확한 의사 결정을 가능하게 합니다. 예를 들어 서버의 성능 문제나 네트워크 장애를 실시간으로 감지하고 즉각적으로 대응할 수 있습니다. 이는 기업이 비즈니스 연속성을 유지하고, 예기치 않은 문제로 인한 손실을 최소화할 수 있게 도와주죠. 둘째, 대시보드는 전체적인 상황을 한눈에 파악할 수 있게 합니다. 여러 출처에서 수집된 데이터를 하나의 화면에 통합하여 보여주기 때문에, 전체적인 상황을 한눈에 파악할 수 있습니다. 이를 통해 데이터 간의 관계를 쉽게 분석하고, 복잡한 문제를 효율적으로 해결할 수 있죠. 이는 전략적 계획 수립과 운영 효율성을 높이는 데 매우 중요한 역할을 합니다. 위에서 살펴본 두 가지 핵심 이유로 인해서 대시보드는, 기업의 비즈니스 경쟁력 확보를 위한 핵심 도구로 자리 잡고 있습니다. │어떤 종류의 대시보드가 있을까요? 대시보드 종류는 매우 다양한데요. IT 인프라 통합 관리 대시보드 기준에서, 대표적으로 세 가지 대시보드 유형을 살펴보겠습니다. 서비스형 대시보드 [그림] Zenius 서비스형 대시보드 일반적으로 많이 사용하는 서비스형 대시보드는 IT 서비스 성능 상태를 실시간으로 모니터링할 수 있게 도와줍니다. CPU, 메모리 사용량, 디스크 I/O, 네트워크 트래픽 등을 한눈에 확인할 수 있죠. 이를 통해 성능 저하나 장애가 발생하면 즉각 알림을 받아 빠르게 대응할 수 있습니다. 또한 클라우드와 온 프레미스 환경 모두 사용 가능해 유연성이 뛰어납니다. 지도형 대시보드 [그림] Zenius 지도형 대시보드 지도형 대시보드는 여러 지역에 분산된 IT 인프라를 한 지도에서 통합적으로 보여줍니다. 서버, 데이터 센터, 네트워크 장비 위치와 상태를 지도 위에 표시해 한눈에 파악할 수 있죠. 이때 특정 지역에서 문제가 발생하면 즉시 감지하고 대응할 수 있습니다. 또한 지리적 데이터를 바탕으로 장애 패턴을 분석하여 효율적인 관리가 가능하며, 실제 지리 정보 시스템(GIS)와 연동해 정교한 위치 기반 관리도 가능합니다. 이러한 기능 덕분에 이 대시보드는, 특히 글로벌 기업이나 여러 지사와 데이터 센터를 운영하는 조직에서 유용하게 사용됩니다. 구성도형 대시보드 [그림] Zenius 구성형 대시보드 구성도형 대시보드는 네트워크 자원의 상태와 관계를 시각적으로 표현해 줍니다. 이를 통해 네트워크 장비 간의 트래픽 흐름을 실시간으로 모니터링하고, 병목 지점이나 장애 발생 지점을 쉽게 찾아낼 수 있습니다. 또한 각 장비의 상태, 성능 지표, 로그 데이터를 시각적으로 제공해 문제를 조기에 발견하고 해결할 수 있도록 도와줍니다. 더 나아가 네트워크 트래픽을 분석해 최적화 방안을 도출할 수 있으며, 다양한 네트워크 인프라를 지원해 유연한 관리가 가능합니다. 하지만 이러한 대시보드는 '어떻게 구현하고 설계했느냐'에 따라서 좋은 대시보드가 될 수도, 그렇지 못할 수도 있는데요. 그렇다면 좋은 대시보드를 만들기 위해 어떤 점을 고려해야 할까요? 다음 내용을 통해 자세히 살펴보겠습니다. │좋은 대시보드를 만들기 위한 고려사항 핵심 데이터 우선 제공 우선 좋은 대시보드를 만들기 위해 가장 먼저 고려해야 할 점은, 시각화할 대상과 데이터를 명확히 파악해야 한다는 것입니다. 어떤 데이터가 가장 중요한지, 결정하는 것이 우선이죠. 반대로 너무 많은 데이터를 시각화하지 않도록 주의해야 합니다. 과도한 데이터 시각화는 사용자가 중요한 정보를 파악하는 데 어려울 수 있습니다. 따라서 핵심 데이터를 선별하여 우선적으로 표시해야 합니다. 좀 더 구체적인 사례를 통해 살펴볼게요. 대시보드는 서버, 네트워크, DB 등 기본 인프라 데이터를 수집하고 시각화해야 하는데요. 이 데이터는 CPU, 메모리, bps, 스토리지, 데이터 파일 등과 같이 시스템 성능과 운영 상태를 파악하는 필수적인 핵심 지표들입니다. 이러한 핵심 데이터를 명확하게 정의하고 제공하는 것은 대시보드 설계의 첫 번째 단계에서 중요한 요소이죠. [그림] Zenius 서비스형 대시보드 Zenius 대시보드는 이러한 기본 인프라 데이터를 우선적으로 수집하고 시각화하여, 사용자가 가장 중요한 정보를 빠르게 파악할 수 있도록 합니다. 사용자가 어떤 데이터를 가장 먼저 확인해야 하는지, 즉 우선순위를 명확히 하여 중요한 정보를 놓치지 않도록 도와주죠. 효율적이고 직관적인 정보 전달 좋은 대시보드를 만들기 위해 두 번째로 고려해야 할 점은, 사용자가 필요한 정보를 쉽고 빠르게 확인할 수 있도록 설계되어야 합니다. 데이터의 가독성을 높이는 색상과 그래픽 요소를 적절히 사용하여, 사용자 인터페이스가 직관적이고 사용하기 쉬워야 합니다. 여기서 유의할 점은 시각적 요소에 너무 몰두하지 않도록 주의해야 합니다. 디자인에만 집중하면 필요한 정보가 제대로 전달되지 않을 위험이 있기 때문이죠. 따라서 실용성과 사용성을 중시하여 사용자 중심의 인터페이스를 설계해야 합니다. 이번에도 대시보드 사례를 통해 구체적으로 살펴볼게요. Zenius는 '사용자 맞춤형 대시보드'를 제공하고 있는데요. 사용자의 모니터링 환경에 맞게 자유롭게 편집할 수 있습니다. 관리 대상이 많아지거나, 관리 목표를 변경해도 컴포넌트와 디스플레이 항목을 손쉽게 편집할 수 있습니다. 또한 Zenius의 직관적이고 유연한 편집 기능을 통해, 사용자에게 필요에 따라 색상이나 차트 유형을 쉽게 변경할 수 있도록 설계했습니다. 데이터를 가독성 있게 시각화하여 사용자가 인터페이스 직관적이고 사용하기 쉽도록 구성했죠. 외부 데이터 통합 좋은 대시보드를 만들기 위해 세 번째로 고려해야 할 점은, 기업 내 여러 솔루션의 핵심 지표를 한 화면에서 확인할 수 있도록 구성해야 합니다. 외부 데이터와의 연동으로 여러 시스템의 데이터를 통합하면, 전체 상황을 한눈에 파악할 수 있는데요. 이를 통해 분석과 의사결정을 용이하게 해줍니다. Zenius 사례를 통해 다시 한번 살펴보겠습니다. Zenius 대시보드는 3rd Party 시스템 연동을 통해, 외부 데이터를 통합하여 한 화면에서 핵심 지표를 확인할 수 있도록 설계했습니다. 이를 통해 사용자가 기업 내 다양한 솔루션 지표를 한눈에 파악할 수 있죠. 비즈니스 전반의 통합 관제 좋은 대시보드를 만들기 위해 네 번째로 고려해야 할 점은, 비즈니스 관점에서 모니터링과 이상 상황을 감지할 수 있도록 설계되어야 합니다. 조직의 전반적인 운영 상태를 실시간으로 파악하고, 문제 발생 시 신속하게 대응해야 하기 때문이죠. 또한 서비스 단위로 인프라를 구성하여, 비즈니스 문제 여부를 즉각적으로 파악할 수 있도록 해야 합니다. 다시 Zenius 사례를 통해 살펴볼게요. Zenius 대시보드는 수집된 다양한 정보를 바탕으로, 최상위 레벨에서 비즈니스 관점 모니터링과 이상 상황을 감지할 수 있는 화면을 제공합니다. 다양한 컴포넌트와 차트, 다이나믹한 요소들을 적용하여 시각적인 효과를 극대화할 수 있죠. 이번 시간에는 대시보드가 왜 필요한지, 좋은 대시보드를 구현하기 위해서는 어떠한 점들을 고려해야 하는지 알아보았습니다. 하지만 이러한 좋은 대시보드를 성공적으로 구현하기 위해서는, 전문가의 도움이 필요합니다. 데이터를 시각화하여 구성하는 것은 보는 이에 따라 관점이 다르고 다양하여, 하나부터 열까지 구성하는 것이 어려울 수 있기 때문이죠. 또한 조직 상황이나 사용자 관점마다 중요한 데이터가 다르고 시각화해야 하는 방식도 다를 수 있습니다. 따라서 제니우스(Zenius)와 같이 수많은 구축 노하우를 보유하고 있고, 고객의 상황에 따라 최적화된 대시보드 구현이 가능한 솔루션 활용을 통해 비즈니스 경쟁력을 확보하시기 바랍니다. ?더보기 Zenius Dashboard 더 자세히 보기
2024.07.26
회사이야기
회사와 팀의 성과를 높이는 두 가지 방법
회사이야기
회사와 팀의 성과를 높이는 두 가지 방법
지난 글을 통해서는 성과를 높이기 위한 첫 번째 걸음에 대해서 알아봤었습니다. 결국 좋은 성과(결과)를 만들기 위해서는 우리의 행동과 생각, 그리고 느낌을 만들어 내는 '에너지와 생리 상태'를 잘 관리하는 것이 핵심이죠. (지난 글 보기) '개인'의 차원에서는 에너지와 생리 상태를 관리하는 것이 성과를 내기 위한 첫걸음이라면, '팀'으로서 성과를 내기 위한 첫걸음은 무엇일까요? Microsoft, Salesforce, Adobe, 구글 등 꾸준한 성공을 만들어내는 팀과 회사들의 사례를 통해서, 어떻게 하면 '팀'으로서 성공할 수 있는지 자세히 살펴보겠습니다. │기본 중의 기본이자 핵심은 '명확한 커뮤니케이션' '지금 내가 제대로 이해한 걸까?' '내가 미팅 때 이야기 한건 이게 아닌데, 왜 이런 결과물이 나왔지?' '왜 미팅을 하면 오히려 더 혼란스러워 질까?' 다른 구성원과 함께 일하다 보면 적지 않게 겪게 되는 고민입니다. 이메일, 화상회의, 메신저 등 사내 구성원 간의 소통을 위한 도구들은 발전하고 있지만, 명확하지 못한 커뮤니케이션으로 인한 비효율성이 점점 더 증가하고 있습니다. 미국에 위치한 전문 회사인 Weber Shandwick에 따르면 불충분한 커뮤니케이션이 지속될 경우 직원의 70% 이상이 업무능률이 심각하게 저하된다고 합니다. 또한 SIS International Research는 불명확한 커뮤니케이션으로 인해 연간 기업들이 겪는 손실이 평균 6억 원에 이른다는 연구결과를 발표하기도 했습니다. 불명확한 소통으로 인한 과도한 스트레스 따라서 구성원 간의 명확한 커뮤니케이션을 통해 오해를 줄이고 협력을 강화하는 것이 매우 중요합니다. 그렇다면 구체적으로 어떻게 명확한 커뮤니케이션을 해야 하는 걸까요? [1] 리더(CEO, 경영진, 팀장)의 직접적이고 투명한 소통 각 기업의 CEO나 경영진은 정기적으로 회사의 상황, 비전, 그리고 중요한 변화 사항을 주기적으로 투명하게 공유하는 것이 중요합니다. 이는 직원의 신뢰를 쌓고, 조직 전체의 목표에 대한 이해와 참여를 높이며, 변화에 대한 저하를 감소시켜줍니다. Microsoft의 사티야 나달리가 정기적으로 전 직원 미팅을 통해 회사의 성과, 도전과제 및 미래 계획을 공유하는 것과 Salesforce의 마크 배니 오프가 다양한 프로세스를 통해 꾸준히 소통하는 것이 좋은 예입니다. CEO나 경영진의 소통에서 가장 중요한 부분은 '있는 그대로의 투명'해야 한다는 것! 경영진과 각 부서 리더들이 매주 미팅을 통해 자신들의 성공과 실패를 솔직하여 공유하여 전사적인 투명성을 강화했던 Ford의 사례처럼, 투명한 소통은 결국 함께 성공을 만드는 필수 요소입니다. [2] 명확하고 지속적인 피드백 기업 내에서 명확하고 빠른 피드백은 회사의 성장과 개인의 발전에 중요한 역할을 합니다. 먼저 빠른 피드백은 구성원의 비효율적인 행동을 즉시 보완할 수 있도록 돕습니다. 이는 학습 곡선을 가속화하고, 비효율적인 업무 방식이 고착화되는 것을 방지합니다. 긍정적인 피드백의 경우에는 직원의 자신감을 높이고, 부정적인 피드백은 성장을 위한 동기를 제공합니다. 또한 피드백을 통해 리더와 팀원 간의 소통이 자주 이루어지면 서로의 신뢰를 높이고 관계를 강화할 수 있습니다. 실례로 Adobe는 연간 성과 평가 시스템을 폐지하고, 리더와 팀원이 정기적으로 만나 성과와 목표에 대하 논의하는 'Check-in'이라는 지속적인 피드백 시스템을 도입했는데요. Adobe는 이 새로운 시스템을 통해 직원 만족도가 향상되고 이직률이 감소했으며, 목표 달성률이 증가했다고 밝혔습니다. │모든 구성원의 '명확한 목표 의식의 공유' 1962년 미국 대통령 존 F. 케네디가 NASA를 방문했을 때 구내를 돌아다니며 여러 직원들에게 그들이 무슨 일을 하고 있는지를 물었다고 합니다. 이때 청소부 한 명이 자신의 일을 이렇게 설명했다고 하죠. '나는 달 탐사를 통해 미국을 우주 경쟁에서 승리하게 하는 일을 하고 있습니다.' 이 청소부의 답변은 NASA의 목표인 '달 탐사'라는 목표에 대해서 직책과 관계없이 모든 직원이 공감하고 집중하고 있음을 단적으로 보여줬습니다. 결국 달 탐사에 성공한 NASA 이 이야기에서 볼 수 있는 것처럼 각 구성원이 조직의 큰 목표에 어떻게 기여하고 있는지 명확하게 인식하는 것이 중요합니다. 이러한 인식은 구성원들에게 더 큰 만족감과 목적의식을 제공하며, 일상적인 업무가 얼마나 중요한지를 깨닫게 하죠. 이를 실천하기 위한 구체적인 방법과 사례를 살펴보겠습니다. [1] 목표 공유 세션(미팅) 진행 주기적으로 타운홀 미팅 등의 전사 세션을 통해 모든 구성원이 회사의 목표와 방향성을 이해하고, 그들의 일상 업무가 전체 목표에 어떻게 기여하는지를 설명하는 시간이 필요합니다. 주기적인 전사 미팅을 통해 경영진과 직원 간의 직접적인 소통을 강화하고, 회사의 달성해야 할 큰 목표와 각 팀 및 개인의 기여도를 명확하게 공유하는 것이 중요합니다. [2] 성공 스토리의 주기적인 공유 스타벅스는 직원들이 고객 서비스를 통해 어떻게 회사의 비전인 '제3의 장소'를 실현하고 있는지를 매월 공유합니다. 이런 스토리 공유는 다른 직원들에게 영감을 주고, 개인의 노력이 전체적인 회사 비전에 어떻게 기여하는지 명확하게 알게 하죠. 구성원들의 성공 사례를 정기적으로 공유하고, 그들의 성과가 조직의 전체 목표와 어떻게 연결되는지 강조한다면 모든 구성원의 소속감과 능률을 크게 높일 수 있습니다. [3] 개인과 회사 전체의 성과와 목표 연결 Deloitte는 개인의 성과 평가를 회사 전체의 전략적 목표에 연결하는 방식을 채택하여, 각 직원이 자신의 일이 회사의 큰 그림에 어떻게 기여하는지 이해할 수 있도록 합니다. 이를 위해 매년 성과 관리 프로세스를 통해 개인의 목표를 회사의 연간 목표와 연결 지어 설정하죠. 이러한 성과와 목표의 연결은 직원 개개인의 역할이 큰 목표 달성에 중요하다는 것을 강조하여 동기를 부여하고 참여를 촉진시킵니다. 위의 세 가지 방법뿐 아니라, 회사의 중요 목표와 실천 방침 등을 담은 '컬처 북'을 만들어서 지속적으로 활용하는 방법도 명확한 목표의식 공유를 위한 좋은 방안입니다. '투명하게 커뮤니케이션하고, 목표를 명확하게 공유하라' 어떻게 보면 새로울 것이 없는 내용이지만, 실제로 적용하고 꾸준히 적용하는 것에는 적지 않은 노력이 필요한 것이 사실입니다. 하지만 꾸준히 함께 성과를 만들기 위한 필수 요소이기에, '천 리 길도 한 걸음부터'라는 오랜 속담을 떠올리며, 오늘부터 하나씩 적용해 보는 것은 어떨까요?
2024.07.09
기술이야기
무선 AP에 대해서 꼭 알아야 할 세 가지
기술이야기
무선 AP에 대해서 꼭 알아야 할 세 가지
지난 시간에는 무선 AP를 '어떻게' 하면 효과적으로 관리할 수 있는지에 대한 TIP을 알려 드렸었는데요(링크). 여기서 잠깐, 무선 AP란? '무선 AP'는 Access Point의 약자로 Wireless Access Point 라고 하며, WAP으로 불리기도 합니다. 실제 인터넷으로 연결되는 신호는, 무선 신호를 받아서 유선 신호 체계로 전달해 주는 매개체가 필요한데요. 이를 AP가 담당합니다. 이름 그대로 Access Point로서 유선 신호를 무선으로 바꿔주거나, 무선 신호를 유선으로 바꾸는 접촉 지점의 역할을 하죠. 이번 시간에는 구성요소, 주요 활용사례, 관리 시스템 등 AP와 관련해서 꼭 알아야 할 세 가지를 살펴볼 예정입니다. 우선 그전에 무선 AP가 최근에 '왜' 필요해졌는지부터 짚어보겠습니다. │무선 AP의 필요성 무선 AP는 일반적인 유선 공유기보다, 설치 장소에 구애받지 않는다는 점에서 차별점을 가지고 있습니다. 무선 안테나가 AP에 자체적으로 내장되어 있고 PoE 기능을 통해 일반적인 가정에서 사용하는 유선 공유기보다 자유롭게 설치될 수 있죠. 이외에도 AP는 아래와 같은 특장점으로 각광받고 있습니다. 가용성 무선 AP는 일반적인 유무선 공유기보다 무선으로 연결된 기기를 더 많이 수용할 수 있는데요. 대규모 인원을 수용해야 하는 기업/공공 지자체/백화점/카페 등 대규모 클라이언트가 필요한 장소의 원활한 네트워크 연결을 용이하게 한다는 점에서 가용성이 뛰어납니다. 관리적 측면 무선 AP는 자신을 포함하여 대역을 무선으로 연결해 주는 기능이 기본적인 역할입니다. 하지만 부가적으로 무선관리 시스템으로부터 중앙 컨트롤을 받으며, 클라이언트의 통신 상태를 체크하는 기능을 가지고 있는데요. 사용자 확인부터 트래픽 양, 웹 접속 권한 설정과 알람까지 폭넓은 관리 기능을 제공하고 있습니다. 대규모 클라이언트 지원 일반적인 가정이 아닌 학교/기업/공공장소와 같은 대규모 클라이언트에 동시 접속을 하기 위해선, 대규모 접속을 처리할 수 있는 무선 AP가 필요합니다. 일반적인 공유기의 경우 약 한정된 IP만 할당받을 수 있으며, 인원이 많아질수록 속도 저하나 부하가 발생하기 때문이죠. 반면 무선 AP는 이러한 대규모 환경에서 접속을 효과적으로 처리할 수 있습니다. 편리성 무선 AP는 *SSID(Service Set Identifier)1가 하나로 통합되어, 접속 환경이 달라지더라도 무선 신호를 다시 잡을 필요가 없습니다. 반면 가정용 공유기의 경우 SSID가 별도로 분리되어 있어, 무선 신호 연결을 할 때마다 별도의 인증 절차를 거치게 되죠. 물론 공유기도 AP 모드로 SSID를 통합하여 사용할 수 있지만, 이는 네트워크 속도의 저하를 일으킬 수 있습니다. *SSID1: Wifi 공유기 검색할 때 나오는 명칭 이름(ex. SK_WifiXXXX) │무선 AP를 활용한 주요 사례 무선 AP는 앞에서도 언급했지만 대규모 환경에 적합하여, 다양한 분야에서 지속적으로 확대되고 있는데요. 몇 가지 대표적인 사례를 통해 좀 더 살펴보겠습니다. 디지털 뉴딜 정책 : 공공 와이파이 전환 사업 한국지능정보진흥원(NIA)에서는 2023년에 전국의 공공장소에 무선 인터넷 인프라를 대폭 확장하는 사업을 진행했습니다. 이 계획에 따라 그 해에만 4,400개의 새로운 공공장소에 공공 와이파이가 설치되어, 전체적으로 5.8만 개의 공공장소에서 공공 와이파이를 이용할 수 있게 되었습니다. 당진시 공공 와이파이 존 구축 당진시는 2018년까지 꾸준히 인구가 증가한 도시 중 하나입니다. 이러한 변화에 맞춰 교통과 물류의 인프라가 획기적으로 개선되었습니다. 더불어 당진시는 공공 와이파이 수요 증가에 대응하기 위해, Cisco AP 제품을 사용하여 시내 주요 지점에 공공 와이파이존을 확대하는 사업을 추진했습니다. 이 밖에도 국내 여러 도시에서는 스마트 시티 구축을 목표로, 도시 곳곳에 무선 AP를 설치하여 시민들이 어디서나 인터넷에 쉽게 접속할 수 있는 환경을 조성하고 있습니다. 대형 쇼핑몰, 카페 체인점(ex. 스타벅스), 호텔 등 상업 시설에서도 고객 경험 개선을 위해 무선 AP를 활용한 와이파이 서비스를 제공하고 있죠. 그렇다면 네트워크 환경에서 AP가 잘 관리될 수 있도록, 필수적으로 확인해야 하는 구성 요소는 무엇일까요? │무선 AP의 네트워크 환경 구성 요소 [그림] 무선 AP의 네트워크 환경 구성 요소 무선 AP를 구축하고 잘 관리하기 위해서는 AP 컨트롤러, LWAPP 프로토콜, PoE, UI 구성 요소들이 필요한데요. 각각 구성 요소들이 어떤 역할을 하는지 파악해 보겠습니다. AP 컨트롤러 AP 컨트롤러(WLC, Wireless Lan Controller)는 다량의 AP를 관리합니다. AP의 작동 상태를 실시간으로 모니터링하며, 접속 상태 확인과 AP 설정하는 역할을 담당하죠. 또한 로드밸런싱(대역폭 분산)과 함께 일부 AP 장애 시 주변 AP를 통한 장애 감지 기능, 플랫폼을 통한 클라이언트 접속 상태에 대한 실시간 모니터링 기능을 제공합니다. LWAPP 프로토콜 이때 AP 컨트롤러와 무선 AP 간의 통신을 위한 프로토콜인 LWAPP(Lightweight Access Point Protocol)가 필요한데요. LWAPP 프로토콜을 통해 각 AP는 컨트롤러로부터 자동으로 구성되고, 보안 업데이트를 받으며, 사용자 접속을 관리할 수 있기 때문이죠. 예를 들어 LWAPP 프로토콜 덕분에 쇼핑몰 방문객들은 어디서나 끊김 없는 와이파이 접속을 경험할 수 있으며, 운영자는 효율적으로 네트워크를 관리할 수 있습니다. PoE PoE(Power of Ethernet)는 무선 AP에 붙어 있는 이더넷 전원 장치로, 인터넷 케이블 하나에 데이터와 전원을 동시에 보내는 기술입니다. PoE를 이용하여 전원 코드를 따로 꽂을 필요가 없어, 설치가 간편하죠. 또한 별도의 어댑터 연결 없이 PoE 전송이 가능한 WAN 케이블 연결만 하면, 네트워크 기능과 전원 기능을 모두 구현할 수 있습니다. 이를 통해 AP의 벽면이나 천장에 설치가 가능합니다. UI AP 컨트롤러와 연계된 UI(UserInterface)로 AP 관리가 가능하며, AP에 연결된 클라이언트까지 확인할 수 있습니다. UI 화면을 통해 어느 정도의 트래픽을 사용했는지 확인할 수 있으며, AP의 이름(SSID)과 암호를 지정할 수 있습니다. 또한 AP에 연결된 클라이언트의 외/내부 관리가 가능합니다. Cisco Meraki와 Ruckus의 경우, AP 컨트롤러와 AP를 웹 화면으로 관리할 수 있는 UI 환경을 제공하는데요. 다음 사례를 통해 좀 더 자세히 살펴보겠습니다. │무선 AP와 컨트롤러 관리 시스템 앞에서 살펴본 것처럼 대규모의 무선 AP와 컨트롤러를 관리하기 위해서는 UI 환경, 즉 '모니터링'이 필수적인데요. 무선 AP와 컨트롤러를 모니터링할 수 있는 대표적인 사례를 살펴본다면 다음과 같습니다. Cisco Meraki [그림] Cisco Meraki 주요 장비 Cisco Meraki는 Cisco의 주요 AP, WAN, 스위치, 제품에 대한 모니터링이 가능합니다. Cisco 자체의 대시보드를 통해 장비와 현황 헬스 체크가 가능하며, 클라이언트의 실시간 사용속도와 AP에 연결된 클라이언트 리스트 역시 확인할 수 있죠. 또한 구글맵을 연동하여 주요 네트워크 장비의 위치 기반 모니터링이 가능합니다. Ruckus Networks Ruckus는 자사 네트워크 장비인 스위치, AP, AP 컨트롤러와 클라우드 관리 시스템을 제공하는 AP 전문 기업입니다. 컨트롤러와 연계된 웹 UI로 네트워크 상태를 원격으로 파악할 수 있죠. 또한 Ruckus의 대시 보드를 통해 주요 장비의 네트워크의 지리적 위치와 AP, 그리고 클라이언트 모니터링이 가능합니다. WNMS AP 벤더가 제공하는 AP 컨트롤러 관리 솔루션 외에도 WNMS(Wireless Network Monitoring System)를 통한 이기종 AP 관리가 가능합니다. 대규모 엔터프라이즈 환경에서는 다양한 이기종의 AP를 사용하는 경우가 많은데요. 이러한 환경에서 WNMS는 트래픽과 클라이언트 사용량을 확인할 수 있을 뿐만 아니라, 다양한 종류의 AP를 함께 관리할 수 있습니다. 이처럼 다양한 제조사의 AP를 하나의 시스템에서 통합적으로 관리할 수 있기 때문에, 대규모 환경에서 네트워크 관리를 효율적으로 운영할 수 있겠죠. [그림] Zenius-WNMS 모니터링 뷰 Zenius-WNMS 모니터링 화면을 보며 좀 더 자세히 살펴볼게요. Cisco와 Ruckus는 자사의 AP 무선 장비만 모니터링할 수 있는 솔루션인 반면, Zenius-WNMS는 AP 장비의 전체 운영 상황과 세부정보들을 모니터링할 수 있습니다. 컨트롤러, AP 장비 운영 상태, 벤더명, 주요 모델 및 트래픽 현황, 접속된 클라이언트 수 등 또한 확인이 가능합니다. [그림] Zenius-WNMS로 보는 무선 AP 트래픽 현황 이뿐만 아니라 Zenius-WNMS는 현재 운영중인 AP의 2.4GHz 대역, 5GH 대역에서의 트래픽 현황과 연결된 클라이언트 이벤트 현황도 모니터링할 수 있습니다. 다양한 감시 항목 설정을 통해, 주요 AP와 관련된 장애 이벤트와 운영 항목에 대한 모니터링도 가능합니다. 이를 통해 네트워크 관리자는 복잡한 네트워크 환경에서 발생할 수 있는 다양한 문제를 빠르게 대응할 수 있고, 네트워크의 성능 저하를 일으킬 수 있는 요소를 즉각적으로 식별하고 조치할 수 있죠. [그림] **대학교 종합상황판 Zenius-WNMS의 대표적인 사례로 **대학교를 들어볼 수 있는데요. 3,000여 개 이상의 대량 무선 AP를 관리하기 위해 통합 대시보드 UI 환경을 구축하였습니다. 이처럼 대규모 환경에서도 Zenius-WNMS는 효과적으로 무선 네트워크를 관리할 수 있습니다. 무선 AP와 이를 구성하는 요소들을 관리하는 체계적인 모니터링 시스템은, 이제 현대 사회에서 필수적으로 자리 잡았습니다. Zenius-WNMS을 활용하여 무선 AP를 하나의 시스템에서 통합적으로 관리하고, 대량의 무선 AP를 효율적으로 관리해 보세요!
2024.05.21
회사이야기
[행사] 근로자의 날 서프라이즈 이벤트 'CEO가 쏜다!'
회사이야기
[행사] 근로자의 날 서프라이즈 이벤트 'CEO가 쏜다!'
여느 때와 다르지 않은 월요일, 아니 5월 1일 근로자의 날 덕분에 다소 마음이 가벼웠던 지난 4월 29일, 브레인즈컴퍼니 본사 1층 앞에 특별한 차량이 도착했습니다! │본사 1층 앞, 특별한 커피차가 등장하다 본사 1층 앞에 등장한 차량은 예쁜 외관을 갖춘 커피차였습니다! 브레인즈 그룹의 대표인 선근 님께서 근로자의 날을 맞아 브레인즈컴퍼니와 에이프리카 구성원분들을 위해 직접 준비해 주셨는데요. 단순히 커피만 준비된 게 아니었습니다. 아메리카노, 카페라떼, 바닐라라떼 등의 커피류부터 리버레몬에이드, 핑크 리치 에이드, 샤인 머스캣 에이드, 뱅쇼 에이드와 같은 에이드류와 티! 그리고... 달콤하고 신선한 다양한 과일이 담긴 과일 컵까지 준비되어 있었습니다! '브레인즈 그룹 모두 모여라!'라는 팻말처럼, 커피차 이벤트 앞에 구성원분들이 삼삼오오 모이기 시작했는데요. 어떤 메뉴를 고를지 화기애애한 웃음과 목소리가 끊이질 않았습니다. "갑자기 1층에 커피차가 있어서 깜짝 놀랐어요. 선근 님이 앞치마 하면서 서빙해 주셨던 모습도 인상적이었습니다(웃음). 특히 음료에 붙어있던 '여러분이 있어 정말 든든합니다'라는 문장에 감동받았어요!" "1층에 커피차가 있어서, 근처에 무슨 행사하나 보다 했는데 저희를 위한 선물이었다니. 정말 감동했습니다. 촬영해서 친구들에게 보여주기도 했어요. 다들 깜찍하다고 하더라고요(웃음). 이렇게 소소한 이벤트를 열어주신 선근 님께 감사의 말씀 전합니다!" 등의 반응들로 감동과 즐거움을 엿볼 수 있던 시간이기도 했습니다. 또한 이날 선근 님께서는 브레인즈 구성원분들을 위해 손수 서빙과 더불어, 따뜻한 응원 메시지까지 함께 전달해 주셨습니다. 하지만 이날 커피차 이벤트는 단순히 음료와 간식만 준비된 것이 아니었는데요. │두근두근 '꽝 없는' 룰렛 이벤트! 바로 커피차와 함께 선근 님께서 준비한 '꽝 없는 룰렛 이벤트!'가 기다리고 있었습니다. 1등(5만 원 상품권)을 비롯해서 별다방 상품권, 츄파춥스 등이 선물로 준비되어 있었는데요. 모든 브레인즈 구성원분들에게 공평하게 룰렛을 돌릴 수 있는 기회가 주어졌습니다. 모두 두근거리는 마음으로 신중하게 룰렛을 돌리는 시간이 이어졌는데요. 룰렛 이벤트를 통해 여기저기서 터져 나오는 함성과, 아쉬움에 섞인 탄식, 그리고 상품권이 당첨되면 환호하는 소리까지 다양한 감정이 섞여있던 재미있는 시간이었습니다. "색다른 이벤트로 오랜만에 리프레시도 되고, 타팀들과 함께 룰렛 돌리기를 하면서 서로 얼굴 마주하고 인사도 가질 수 있는 시간이라 더 좋았어요. 이런 소확행 이벤트 덕분에 월요일 하루가 너무 즐거웠어요!" 라는 훈훈한 반응도 이끌어낼 수 있었습니다. 그렇다면 대망의 5만 원 상품권을 차지한 분은 두구-두구-두구! 누구일까요? 바로 인프라코어팀 성현진님이었습니다. 축하드립니다! 1등이 생각보다 빠르게 나오는 바람에, 선근 님께서는 '현금으로 쏜다!' 추가 이벤트를 진행해 주셨는데요. 무려 네 분을 더 추가로 선정했습니다! "근로자의 날을 미리 축하하는 이벤트를 통해 시원하고 맛있는 음료도 먹고, 예상치 못한 1등이란 이득까지 생겨 기분 좋게 일할 수 있었습니다. 오늘 정말 기억에 남는 하루가 될 것 같아요. 재밌는 이벤트를 열어주셔서 감사드립니다!" "행여나 5만 원 권 상품권이 없을까 봐 점심을 먹고 바로 달려왔는데, 보람이 있었네요! 좋은 이벤트에 5만 원 상품권까지! 오늘 커피차 이벤트 덕분에, 의미 있는 하루를 보낼 수 있었습니다. 이 5만 원은 좋은 곳에 쓰겠습니다(웃음)." 이렇게 추가 1등 당첨자분들의 벅찬 소감도 들어볼 수 있었습니다. 이번 'CEO가 쏜다!' 이벤트를 통해 직원들에게 단순한 감사의 표시를 넘어서, 브레인즈 그룹의 핵심 가치 중 하나인 '행복하게 일하는 환경'을 위해 실천하려는 모습이 엿보였던 행사였습니다. 선근님의 ❤ 그리고 무엇보다 직원들의 행복과 만족을 최우선으로 생각하는 선근 님의 따뜻한 마음도 직접 느낄 수 있던 시간이었었는데요, 앞으로도 이러한 활동을 통해 모두가 행복하게 일할 수 있는 환경'을 만들고자 합니다. 브레인즈컴퍼니의 다음 이야기도 기대해 주세요!
2024.05.02
기술이야기
네트워크 정보 수집 프로토콜의 모든 것 (SNMP, RMON, ICMP, Syslog)
기술이야기
네트워크 정보 수집 프로토콜의 모든 것 (SNMP, RMON, ICMP, Syslog)
지난 포스팅을 통해 NMS의 기본 개념과 NMS의 구성요소와 역할에 대해서 살펴보았는데요. 오늘은 네트워크 정보 수집을 위한 다양한 프로토콜에 대해서 자세히 알아보겠습니다. 네트워크 프로토콜(Network Protocol)은 네트워크에 연결된 장비 간의 메시지 흐름을 통제하고 관리하는 기본적인 절차와 규칙을 정한 규약입니다. 웹 브라우저, 파일 전송, 이메일 송수신, 미디어 스트리밍 등과 같은 모든 온라인 활동을 가능하게 하기 때문에 네트워크 정보 전달의 핵심요소라고 할 수 있죠. 이번 시간에는 주요 네트워크 프로토콜인 ICMP, SNMP를 중점적으로 알아보겠습니다. ㅣICMP는 무엇이고 어떻게 동작하는가? ICMP(Internet Control Message Protocol)는 주로 네트워크의 경로상의 문제나, 호스트(단말)의 문제 등을 파악할 때 사용하는 프로토콜인데요. 대표적인 서비스가 ping입니다. 구체적인 동작원리를 살펴보면 다음과 같습니다. 오류 보고 ◾ 네트워크에서 데이터를 보낼 때 오류가 발생하면, 오류를 발생시킨 장비(예: 라우터, 스위치)는 오류 정보를 담아 ICMP 메시지를 처음 보낸 사람에게 전송합니다. 이를 통해 무엇이 잘못됐는지 정확히 파악하고 문제를 해결할 수 있습니다. ◾ 예를 들어 한 컴퓨터에서 인터넷을 통해 데이터를 보내는데, 그 데이터가 목적지에 도달하지 못하면 ICMP가 '이 주소로는 데이터를 배달할 수 없어!'라고 알려주는 역할을 하죠. 이렇게 사용자나 네트워크 관리자가 문제를 알리고 대응할 수 있게 도와주는 게 ICMP의 주요 역할입니다. [그림] ICMP 동작 방식 진단 및 테스트 ◾ 네트워크의 연결 상태나 성능을 테스트하기 위해 ICMP 에코 요청과 에코 응답 메시지를 사용합니다. 이를 통해 네트워크의 지연시간(latency)이나 패킷 손실(packet loss) 등을 측정할 수 있습니다. '핑(ping, Packet INternet Groper)'을 대표적인 예로 들 수 있습니다. ◾ 쉽게 표현하면 '너 지금 연결 잘 되어 있니?'라고 물었을 경우 대상 장비가 '응, 잘 되어 있어!'라고 대답하면 연결이 잘 되어 있는 것이고, 대답이 없거나 늦는 것과 같은 문제를 식별하는 것이죠. ICMP도 좋은 도구이지만, 네트워크의 복잡성이 빠르게 증가하고 호스트 수가 증가하면서 ICMP만으로는 네트워크 관리가 어려워지는 문제가 발생했는데요. 이를 개선하기 위해서 탄생한 것이 바로 SNMP입니다. 우선 SNMP의 히스토리부터 살펴보겠습니다. ㅣSNMP 히스토리: 각 버전별 개념과 차이점은? SNMP(Simple Network Management Protocol)는 1988년에 아래의 세 가지 니즈에 부합하기 위해 등장했습니다. ◾ ICMP보다 많은 기능의 탑재 ◾ 네트워크 문제를 직관적이고 쉽게 해결할 수 있어야 함 ◾ 표준화된 프로토콜의 사용 이후 몇 가지 버전을 거쳐서 현재는 네트워크 장비를 모니터링하기 위한 프로토콜로 자리를 잡아서 대부분의 NMS 상에서 이용되고 있습니다. 잠깐 SNMP의 처리단계를 살펴보면, SNMP는 Get/Set/Trap의 단순 명령 구조로 구성되는데요, 메시지 타입별 역할은 아래와 같이 정리할 수 있습니다. 위와 같은 처리단계를 가지고 있는 SNMP는 보안 기능 강화 및 기능 개선을 위해서 초기 v1 버전에서 v3 버전까지 업그레이드됐습니다. 각 버전은 보안, 성능, 유연성 등의 측면에서 발전되었으며 현재는 SNMPv2가 가장 많이 사용되고 있죠. SNMP 버전 별 특징에 대해서 자세히 알아보겠습니다. SNMP v1 가장 초기에 만들어진 프로토콜로 기본적인 정보만을 주고받아서 네트워크 장비들의 상태를 확인하고, 간단한 명령 정도만 내릴 수 있습니다. 보안에 많이 약한 편이고, 정보를 주고받을 때 특별한 암호화나 보호 방법을 사용하지 않기에 정보가 노출될 위험이 있습니다. SNMP v2 SNMPv1의 단점을 해결하기 위해 개발된 버전입니다. 보안 기능과 네트워크 과부하, 관리 효율성 등에 대한 기능이 향상되었습니다. MIB(Management Information Base) 구조를 개선하여, 새로운 데이터 타입과 객체 식별자(프로그래밍에서 특정 객체를 식별하는 데 사용되는 값이나 이름)을 도입했습니다. 이로써 더 많은 종류의 데이터를 효과적으로 다룰 수 있게 되었지만, v1과 호환이 안되는 문제가 있어 상용화에는 실패했습니다. SNMP v2c (Community-Based Security) SNMPv2c는 '커뮤니티 기반' 방식을 사용하며 'Community String' (공동체 문자열)을 이용합니다. Community String은 정보를 주고받기 위해 인증 과정에서 비밀번호를 사용하는 것으로, 학교에서 특정 비밀번호를 알고 있는 사람들만 특정 정보를 볼 수 있게 하는 것과 비슷합니다. 하지만 비밀번호가 복잡하지 않은 편이라, 조금 더 높은 보안을 필요로 하는 경우에는 적합하지 않을 수 있습니다. 현재 가장 많이 사용되고 있는 버전입니다. SNMP v3 보안과 관리 기능을 대폭 강화한 버전입니다. SNMPv3는 정보를 주고받을 때 강력한 인증과 암호화를 사용하여, 네트워크 상의 중요한 정보를 안전하게 지킬 수 있습니다. 또한 복잡한 네트워크 환경에서 사용자가 많을 경우에도, 각 사용자의 접근 권한을 관리할 수 있는 기능이 있습니다. 하지만 이전 버전들보다 더 복잡한 보안 모델과 설정 등의 이유로 널리 사용되고 있지는 않습니다. [그림] SNMP 버전과 수를 한눈에 볼 수 있는 제니우스 EMS 화면 참고로 SNMP에는 위와 같이 다양한 버전이 있기 때문에 모든 NMS는 제니우스처럼 어떤 버전으로 수집했는지와 수를 파악할 수 있어야 합니다. 이제 SNMP에 대해서 조금 더 자세하게 살펴보겠습니다. ㅣSNMP 자세히 보기: MIB의 개념과 구조 MIB(Management Information Base)는 관리 정보 기반이라고 불립니다. SNMP를 통해 관리되어야 할 정보나 자원들을 모아둔 것으로, Manager와 Agent 간 정보를 주고받는 정보의 집합체입니다. MIB에는 SNMP를 통해 주고받는 정보가 어떤 의미를 가지고 어떻게 사용될 수 있는지에 대한 정의가 포함되어 있습니다. 또한 각각의 정보는 '객체'라고 불리며, 이 객체들은 계층적으로 구성되어 있기에 관리하고자 하는 정보를 쉽게 찾을 수 있게 도와주죠. 대표적으로 CPU 사용량, 메모리 사용량, 포트의 up/down 같은 상태 정보 등이 MIB에 포함됩니다. 마치 항해사가 바다를 항해하기 위해 지도를 사용하는 것처럼, MIB를 통해 네트워크의 상태를 정확히 파악하고 필요한 조치를 취할 수 있습니다. MIB의 구조를 자세히 살펴보면 우선 큰 나무를 뒤집어 놓았다고 생각한다면 이해하기 쉽습니다. 큰 나무의 밑동(Root) → 각각의 가지(Branches) → 잎사귀(Leavers)로 나누어져 내려오는 형태인데요, 부분별로 자세히 살펴보겠습니다. ◾ 밑동(Root): 모든 MIB 트리의 시작점으로, 'iso(1)', 'org(3)', 'dod(6)', 'internet(1)' 등으로 구성되어 있습니다. 여기서 'internet'은 네트워크 장비와 관련된 표준 MIB를 나타냅니다. ◾ 가지(Branches): 밑동에서 나온 큰 가지들은 네트워크 장비의 다양한 부분을 나타냅니다. 예를 들어 'mgmt(2)' 가지는 일반적인 관리 정보, 'private(4)' 가지는 각 제조업체의 고유 정보 등을 의미합니다. ◾ 잎사귀(Leaves): 가장 작은 단위의 정보를 나타내는 부분으로 특정 장비의 상태, 성능 지표, 설정값 등 구체적인 데이터가 저장됩니다. MIB에서는 네트워크 장비의 정보가 여러 '분류'로 나누어져 있는데, '네트워크 인터페이스'라는 분류 아래에는 네트워크 카드의 상태, 속도, 전송된 데이터의 양과 같은 정보들이 담겨 있습니다. MIB는 복잡해 보일 수 있지만, 네트워크 장비와 관련된 정보를 체계적으로 관리하고 접근할 수 있도록 설계되어 있습니다. 이 구조 덕분에 네트워크 관리자는 네트워크의 건강 상태를 쉽게 체크하고 필요한 조정을 할 수 있습니다. 다음으로는 MIB 내의 각 객체를 고유하게 식별하는 OID에 대해서 알아보겠습니다. ㅣSNMP 자세히 보기: OID 확인 방법과 수집항목 OID(Object Identifier)는 MIB 내에 포함되어 있는 각 개별 정도에 대한 ID 값입니다. 아래 그림에서 볼 수 있듯이, 트리의 하단 값이 OID인데 MIB의 각 개별 정보에 대한 ID를 의미합니다. [그림] OID Tree 구조 대형 도서관에서 원하는 책을 찾을 때 책의 번호를 확인하여 빠르고 정확하게 찾는 것처럼, 특정 오브젝트의 ID(Num)을 부여한 게 OID입니다. OID는 포함하고 있는 각 정보를 숫자로 표현합니다. ◾ Enterprise OID: 네트워크 업계에서 공통으로 사용하는 OID ◾ Private OID: 각 네트워크 벤더사에서 사용하는 독자적인 OID 예를 들어 Juniper Networks라는 네트워크 스위치 벤더에서 사용하고 있는 OID 값을 [1.3.5.6.1.9 ]라는 전용 OID 값을 사용한다고 가정하면, Juniper Networks 라우터의 경우 뒤에 라우터 제품별 OID '11'이 더 붙은 [1.3.5.6.1.9.11 ] 형태의 OID로 구성됩니다. [그림] 제니우스 예시 화면 지금까지 네트워크 모니터링에 필요한 ICMP, SNMP 그리고 MIB, OID에 대해 살펴봤습니다. 참고로 제니우스(Zenius)-NMS에서는 OID 사전을 제공하고 있으며, 이를 통하여 관리하고 싶은 항목의 MIB 항목 및 OID 정보를 쉽게 찾을 수 있습니다. 이제 SNMP의 주요 개념 중 하나인 SNMP Trap에 대해서 알아보겠습니다. ㅣSNMP Trap의 개념 그리고 특징은? Manager(관리자)는 Server(Agent)로 메시지 요청(Polling)을 하게 되고, Server(Agent)는 응답(Notifying)을 하는 방식으로 진행됩니다. 그런데 Server가 비정상적인 이벤트를 감지하면 Manager의 Polling을 기다리지 않고 바로 Manager에게 메시지를 보내는데요, 이 긴급 메시지를 Trap(트랩)이라고 합니다. 우리가 날씨에 대해서 찾아보지 않아도 폭설이 예상될 때 폭설을 경고하는 자동 알림 시스템과 비슷한 개념입니다. [그림] SNMP 프로토콜 동작 방식 SNMP Trap은 일반적으로 높은 CPU 사용량이나 디스크 공간 부족과 같이 해결해야 할 문제를 나타냅니다. 중앙 모니터링 시스템으로 전송되어 분석 및 조치를 취할 수 있죠. 이를 통해 Manager는 큰 문제가 발생하기 전에 잠재적인 문제를 신속하게 식별하고 해결할 수 있습니다. SNMP Trap의 방식과 기능을 네 가지로 나누어 살펴보겠습니다. (1) 비동기적 알림 SNMP Trap는 주기적인 폴링이 아닌, 이벤트 기반의 알림을 통해 즉각적으로 대응할 수 있도록 비동기적인 방법을 제공합니다. (2) 실시간 알림 SNMP Trap은 이벤트가 발생하는 즉시 알림을 제공하여, 실시간으로 네트워크 상태 및 장치 상태를 모니터링해서 문제 발생 시 즉각적인 대응과 조치를 가능하게 합니다. (3) 이벤트 기반 모니터링 SNMP Trap은 장치나 응용 프로그램에서 특정 이벤트가 발생했을 때만 알림을 보내기 때문에, 불필요한 트래픽을 발생시키지 않습니다. 따라서 자원을 효율적으로 사용하면서 중요한 상태 변경을 식별합니다. (4) 자동화된 대응 SNMP Trap을 사용하면 이벤트 발생 시, 자동으로 대응 조치를 취할 수 있는 자동화 시스템을 구축할 수 있습니다. 이를 통해 관리자의 개입 없이 특정 이벤트에 대한 대응을 효과적으로 수행할 수 있습니다. [그림] Zenius Syslog 감시 설정 등록 페이지(위), Zenius Syslog 이벤트 페이지(아래) 이와 같은 SNMP Trap을 통해 빠르게 이상을 탐지하는 것이 중요한데요. 제니우스(Zenius)-Syslog와 Trap에서는 Syslog, Trap에 각각 특정 이벤트 조건을 설정하여 이벤트를 감지하고, 장애를 통보할 수 있는 기능을 제공하고 있습니다. 이제 마지막으로 SNMP 못지않게 네트워크 관리에 중요한 역할을 하는 Syslog, RMON에 대해서 알아보겠습니다. ㅣ Syslog, RMON의 개념과 동작원리는? Syslog Syslog는 컴퓨터 시스템, 네트워크 장비, 보안 장비 등에서 일어나는 모든 상황과 변화를 서버에 기록하는 프로토콜입니다. 관리 대상인 장비에서 일어나는 모든 상황을 메모리에 기록하죠. 로그/오류 관리가 주 목적이고 Unix와 Linux에서 많이 사용됩니다. 대부분의 라우터와 스위치들은 Syslog 프로토콜을 이용하여 Log들을 Syslog 서버로 보내고, 수백수천 대의 장비에 일일이 접속하여 로그를 볼 수 없기 때문에 '중앙 집중식'으로 관리합니다. 작업 방식은 주로 Client-Push 모델로 이러우지고 있고, 장비에서 일어나는 모든 상황 변화를 Layer4 프로토콜이 메모리에 기록하며, Syslog 서버는 UDP 포트 514에서 메세지를 수신합니다. Syslog 수집항목은 시스템 운영/네트워크/보안/애플리케이션 등과 관련된 로그를 수집 및 분석하고, 각 항목별로 오류와 트랜잭션 등에 대한 내용을 확인합니다. 출처ⓒ viettelco.net RMON RMON(Remote Network Monitoring)은 네트워크 장비나 서버에서 발생하는 트래픽과 문제들을 원격에서 감시하기 위해 만들어진 프로토콜로, SNMP보다 확장된 개념이라고 할 수 있습니다. 네트워크 관리자는 RMON을 통해, 네트워크의 성능을 측정하고 문제가 발생했을 때 신속하게 해결할 수 있습니다. 회사에서 인터넷이 느려지거나 연결이 되지 않을 때 RMON을 사용하면 원인을 빠르게 찾아내어 문제를 해결할 수 있죠. RMON과 SNMP의 연관성을 우선 아래 이미지를 통해 살펴보겠습니다. 출처ⓒ dpstele.com/blog/what-is-rmon.php 좀 더 자세히 살펴보면 ◾ RMON은 SNMP 위에서 작동하며, SNMP 보다 더 광범위한 데이터를 수집/분석할 수 있는 기능을 제공합니다. ◾ SNMP가 네트워크의 '기본적인 통신'을 담당한다면, RMON은 그 위에서 보다 '세밀한 관찰과 분석'을 가능하게 합니다. ◾ RMON은 SNMP의 특정 데이터를 사용하여 네트워크 트래픽 패턴이나, 성능 문제, 네트워크 내의 비정상적인 활동 등을 실시간으로 감시하고 기록할 수 있게 해줍니다. ◾ RMON에서 Probe라는 수행 장비를 사용하며, 네트워크 트래픽 및 통계 수집 그리고 성능 모니터링을 위해 활용합니다. 결과적으로 RMON의 기능을 통해 네트워크의 문제를 더 빨리 발견하고, 효율적으로 대응할 수 있죠. 마지막으로 SNMP, RMON, ICMP, Syslog의 주요 내용들을 아래 표를 통해 한눈에 살펴보겠습니다. 。。。。。。。。。。。。 지금까지 네트워크 정보 수집을 위한 다양한 프로토콜의 종류와 특징에 대해서 알아보았습니다. 효과적인 네트워크 관리를 위해서 혁신적인 기술들이 많이 개발되고 있는데요, 이를 활용해서 성공적으로 네트워크를 운영하시기를 바라겠습니다!
2024.03.04
기술이야기
ICMP와 SNMP를 비롯한 NMS의 구성요소와 주요 기능은?
기술이야기
ICMP와 SNMP를 비롯한 NMS의 구성요소와 주요 기능은?
지난 포스팅을 통해서 NMS의 기본 개념과 시대별 변화, 그리고 활용 사례 등을 살펴보았는데요. 오늘은 ICMP와 SNMP를 비롯한 NMS의 구성 요소와 주요 기능에 대해서 자세히 알아보겠습니다. 。。。。。。。。。。。。 │ NMS(네트워크 관리 시스템)의 구성 요소와 역할 NMS의 구성 요소와 역할은 크게 다섯 가지로 나눌 수 있습니다. NMS Manager NMS Manager는 Managed Device를 모니터링하고 제어하는 역할을 합니다. SNMP, ICMP, RMON 등의 망 관리 프로토콜을 이용하여 Managed Device 정보를 수집하며 User Interface도 제공합니다. Management Agent (SNMP Agent) 독자적으로 트래픽을 모니터링하고, 통계 정보를 자신의 MIB에 저장해 두었다가 트래픽 정보 요구나 특정 동작 요청에 응답합니다. 또한 망 관리 프로토콜을 활용하여 Manager에게 관리 정보를 전달합니다. Managed Device 백본, 스위치, 라우터, 허브와 같은 네트워크 장비를 말하며 Management Information을 수집하여 MIB에 보관합니다. MIB (Management Information Base) Managed Device의 정보를 포함한 Database 역할을 수행합니다. 관리되는 정보들을 계층적 트리 구조로 구성되고, 망 관리용 프로토콜인 SNMP 등에 의해서 읽힙니다. SNMP Protocol 네트워크 장치로부터 정보를 수집하여 작업을 수행하는 응용 계층의 프로토콜입니다. MIB에 정의되어 있는 객체들의 OID 값을 전달받아 해당 장비의 상태를 나타냅니다. │ NMS 구성 요소의 상호작용 NMS 구성 요소의 상호 작용을 자세히 살펴보면 각각의 네트워크 장비에는 SNMP Agent가 내장되어 있고, MIB를 이용해 네트워크의 상태 및 구성에 대한 정보를 요청하고 응답받습니다. Agent는 관리 정보를 수집하며, SNMP 프로토콜을 이용하여 NMS Manager와 통신을 합니다. NMS Manager의 Server 단에서는 SNMP가 수집한 데이터를 기반으로 분석, 가공, 성능, 구성, 장애, 보안, 운영 등의 관리 작업을 수행합니다. 또한 DB 단에서는 이벤트 및 로그를 기록하여 문제 해결 및 보고에 사용하는데요. 최종적으로는 User Interface를 통해 운영자가 네트워크 장비들을 효율적으로 모니터링하고 관리하기 위한 가시적인 화면을 제공합니다. │ NMS의 데이터 수집 방식 (관련 프로토콜) NMS는 여러 가지 성능 정보를 수집하여 모니터링하기 위해 다양한 프로토콜을 사용합니다. ① SNMP(Simple Network Management Protocol) 네트워크 장비를 관리하고 모니터링하기 위해 사용되는 인터넷 표준 프로토콜입니다. 네트워크 관리자가 네트워크에 연결된 상태를 확인하고 필요한 경우 설정을 변경할 수 있도록 설계되었고, 대부분 NMS 상에 구현되어 이용되고 있습니다. TCP/IP 기반에서 망관리를 위한 프로토콜이며, 관리 대상과 시스템 간 관리 정보(MIB)를 주고받기 위한 규정입니다. Manager(NMS), Agent, MIB(Management Information Base), Managed Device 등으로 구성됩니다. SNMP의 처리 단계는 Get/Set/Trap의 단순 명령 구조로 구성됩니다. SNMP의 메시지 타입은 Get/Set/Trap의 단순 명령 구조로 구성되는데요, 메세지 타입별 역할은 아래와 같습니다. ② ICMP (Internet Control Message Protocol) IP(Internet Protocol) 네트워크의 기기들이 서로 통신 상태 정보와 오류 메시지를 교환하기 위해 사용하는 네트워크 레벨 프로토콜로, 주로 네트워크 장비와 서버 간의 연결 문제를 진단하고 보고하는 데 사용됩니다. ICMP의 주요 기능은 크게 두 가지입니다. ◾ 오류보고(Error Reporting): 네트워크에서 데이터를 전송하는 동안 발생할 수 있는 여러 종류의 오류를 감지하고, 이에 대한 정보를 송신자에게 알리는 기능 ◾ 진단도구(Diagnostic Functions): 네트워크 연결 문제를 진단하는 데 사용되는 유틸리티(예: ping, traceroute)는 ICMP 메시지를 활용하여 네트워크의 상태를 확인합니다. 이를 통해 네트워크의 연결 상태, 지연 시간, 패킷 손실 등을 평가할 수 있습니다. 먼저 SNMP와 ICMP를 살펴보았는데요, 잠깐 두 가지 방식을 자세히 비교해 보면 SNMP는 장치 모니터링, 구성 변경, 이벤트 알림을 제공하며 주로 관리자 중심의 기능을 수행합니다. 반면 ICMP는 네트워크 통신의 에러 및 상태를 보고하고 호스트 간의 연결성을 테스트하는 데 사용되며, 주로 이벤트 기반 및 연결성 확인을 위한 메시지를 전송하는 데 중점을 둡니다. NMS의 데이터 수집 방식에 대해서 계속 살펴보겠습니다. ③ RMON (Remote Network Monitering) SNMP의 확장 형태로 개발된 RMON은, 분산되어 있는 망에 대한 트래픽을 측정하여 망을 감시하고 분석을 제공하는 프로토콜입니다. 원격에 위치한 Probe에서 망자원의 상태 정보를 수집하여 에러를 방지하고 효율적으로 이용하는 것을 목적으로 합니다. NMS의 대표적인 수집 방식을 살펴보았는데요, 이 외에도 다양한 방식이 있기 때문에 NMS 솔루션은 다양한 방식을 지원하는 것이 중요합니다. (*브레인즈컴퍼니의 Zenius-NMS는 SNMP와 ICMP 외에도 RMON, CDP, LLDP 프로토콜 등 다양한 수집 방식을 지원하고 있습니다.) │ NMS의 경보 알림 연계 방식 네트워크 내의 장애나 이상 상태를 감지했을 때 관리자나 담당자에게 이를 알리는 방법으로, NMS의 핵심이라고 할 수 있습니다. 다양한 경보 알림 방식이 있으며, 각 방식은 특정 상황이나 니즈에 맞게 선택되고 있는데요 가장 대표적인 방식들을 알아보겠습니다. 이메일(E-mail) 알림 네트워크 성능이 저하되는 등의 문제가 발생하면, 이메일 시스템과 연계하여 설정된 이메일 주소로 자동으로 알림을 발송합니다. 문제 발생 시 기록을 남기기 쉽다는 장점이 있지만, 긴급한 문제에는 이메일을 확인하는데 지연이 발생할 수 있습니다. 문자 메시지(SMS) 알림 네트워크의 문제 감지 시, NMS는 사전에 등록된 휴대전화 번호로 경보의 성격과 간단한 설명을 포함한 SMS 메시지를 보냅니다. 신속한 알림이 가능하다는 장점은 있지만, 메시지 길이에 제한이 있다는 단점도 있습니다. 메신저 및 협업 툴을 사용한 알림 최근 많이 사용되는 슬랙, 텔레그램, 팀스, 카카오톡을 통해 네트워크의 이상을 알리는 방식입니다. 문자 메시지와 같이 신속한 알림이 가능하면서 메시지 길이에 크게 제한이 없다는 장점도 있습니다. Dashboard를 통한 이벤트 관제 특정 경보가 발생하면, 웹 기반의 대시보드에 경보 메시지를 포함하여 관리자가 시각적으로 확인할 수 있도록 알립니다. 직관적으로 실시간 네트워크 상태를 모니터링할 수 있는 것이 가장 큰 장점입니다. 서버, 네트워크, 부대설비 모듈을 포함한 Zenius-Dashboard 예시 화면 위와 같이 다양한 알림 연계 방식을 통해, 담당자에게 즉시 장애 처리를 할 수 있도록 지원하는 기능도 중요합니다. NMS에서 즉각적인 장애를 처리하기 위해 제공하는 기능은 다음과 같습니다. ◾ 다중 수신자 지원: 여러 관리자나 담당자에게 동시에 경보를 전송하여 여러 관리자가 신속하게 대응할 수 있게 합니다. ◾ 알림 임계값 설정: 관리자는 경보 발생을 위한 임계값을 설정할 수 있습니다. (예: 특정 장치의 성능이 일정 수준 이하로 떨어질 때 알림을 발생시키도록 설정) ◾ 장애 관리 자동화: 특정 이벤트에 대해 미리 정의된 복구 스크립트 및 시나리오를 통해 장애 감지부터 처리까지의 장애 관리 업무를 자동화할 수 있습니다. NMS의 경보 알림 방식을 살펴보았는데요, 이제 NMS의 주요 기능을 자세하게 알아보겠습니다. │ NMS의 주요 기능 자세히 보기 NMS는 네트워크의 효율성, 가용성, 보안 등을 관리하고 감시하기 위한 다양한 기능을 제공합니다. 보편적으로 NMS에서 제공하는 상세 기능들은 아래와 같이 정리할 수 있습니다. NMS는 장애 관리, 구성 관리, 성능 관리를 중심으로 다양한 세부 기능을 가지고 있습니다. NMS의 많은 기능 중에서도 특히 네트워크 장비들을 실시간으로 모니터링할 수 있는 '성능 관리' 기능과, 성능 저하 또는 병목 현상을 빠르게 식별하여 해결할 수 있는 '장애 관리' 기능이 중요합니다. │ NMS의 발전 방향 NMS는 복잡하고 빠르게 변화하는 기술 트렌드에 맞춰 지속적으로 발전하고 있습니다. 클라우드, 가상화, 5G, IoT와 같은 기술의 발전에 따라서 사용자에게 높은 품질의 서비스를 제공하기 위한 방향으로 진화하고 있습니다. 온 프레미스와 클라우드의 조화 온 프레미스 환경은 보안, 규정 준수, 네트워크 제어와 같은 니즈 때문에 여전히 중요한 역할을 하고 있습니다. 반면 클라우드 기반 NMS 솔루션은 비용 효율성, 안정성, 용이한 배포와 같은 이점을 제공하는데요. 따라서 NMS도 온 프레미스와 클라우드의 장점을 조화롭게 포함하며 발전하고 있습니다. 클라우드 네이티브 환경으로의 진화 기업과 기관들이 클라우드 서비스를 적극적으로 채택함에 따라 NMS는 클라우드의 유연성, 확장성, 효율성을 극대화하는 등 클라우드 환경에 더욱 적합한 구조로 발전하고 있습니다. 분산형 아키텍처와 기술 혁신 최근의 NMS는 중앙 집중식에서 벗어나 더욱 분산된 아키텍처를 채택하고 있습니다. 마이크로 서비스 아키텍처(MSA)를 통해 모듈화되고 유연한 시스템 구조를 도입하여, 필요한 기능을 쉽게 추가하거나 변경할 수 있습니다. 또한 AI 기반의 NMS는 네트워크 데이터를 분석하고, 문제의 예측 및 해결 능력 향상에 기여하고 있습니다. 이 밖에도 NMS는 5G와 IoT 등의 신기술에 효과적으로 대응하기 위해 지속적으로 발전하고 있습니다. 。。。。。。。。。。。。 NMS의 구성 요소와 주요 기능 그리고 발전 방향에 대해서 살펴봤습니다. NMS 솔루션을 선택할 때는 기본적인 기능을 잘 갖추고 있을 뿐 아니라, 혁신적인 기술과 트렌드를 적극적으로 채택하고 지속적인 연구와 개선을 지속하는 기업의 솔루션을 선택해야 합니다. 안정적인 네트워크 운영은 이제 비즈니스의 필수 요소입니다. 성공적인 NMS 솔루션 선택을 통해 네트워크 성능을 극대화하여 비즈니스의 경쟁력을 확보하시기 바랍니다!
2024.02.08
기술이야기
쿠버네티스를 통해 본 컨테이너 오케스트레이션
기술이야기
쿠버네티스를 통해 본 컨테이너 오케스트레이션
‘쿠버네티스(kubernetes)’는 2013년 구글에서 공개한 이후 컨테이터 오케스트레이션 도구의 표준으로 자리 잡았습니다. CNCF의 1호 졸업 프로젝트이기도 한 쿠버네티스는 지속적인 릴리즈를 거쳐 꽤 성숙한 제품이 됐는데요. 쿠버네티스는 컨테이너화된 어플리케이션을 자동으로 배포하고 스케일링 및 관리하기 위한 컨테이너 오케스트레이션 도구라고 간단하게 정의할 수 있습니다. 일반적으로 컨테이너를 사용할 때 ‘도커(Docker)’를 많이 사용한다는 이야기를 들으셨을 것입니다. 도커는 컨테이너를 쉽게 만들고, 내려받고, 공유할 수 있도록 사용되는 컨테이너 플랫폼입니다. 온프레미스 환경 아래의 배포에서 가상환경의 배포로 발전하고 더 나아가 컨테이너 환경 아래에서 리소스를 관리하게 되면서, 도커는 컨테이너 런타임의 표준으로 자리 잡았습니다. 이미지 출처 ⓒ https://kubernetes.io/ko 컨테이너 환경의 배포는 온프레미스 환경과 가상화 환경의 배포보다 관리는 용이하지만, 컨테이너 수가 많아지게 되면서 부하 분산과 안정적인 배포를 위해 관리해야 할 필요성이 지속적으로 증가하였습니다. 이 때 등장하는 것이 컨테이너의 오케스트레이션 도구라고 할 수 있는 쿠버네티스입니다. 이번 시간에는 컨테이너 오케스트레이션의 주요 도구인 쿠버네티스를 통해 컨테이너 오케스트레이션에 대해 알아보고자 합니다. │쿠버네티스의 주요 목적 쿠버네티스의 주요 목적을 이해하려면 컨테이너 오케스트레이션의 개념을 먼저 짚고 넘어가야 합니다. 컨테이너 오케스트레이션 위키피디아의 정의에 따르면 ‘컴퓨터 리소스 자원과 애플리케이션 및 서비스에 대한 자동화된 설정 및 관리’를 의미합니다. 이를 컨테이너에 적용하면, 여러 컨테이너에 대한 프로세스를 최적화하고 적절한 자원의 할당과 자동으로 컨테이너를 생성하고 배포할 수 있도록 해야 합니다. 소수 사용자를 위한 비교적 단순한 컨테이너 앱은 보통 별도의 오케스트레이션이 필요하지 않을 수 있습니다. 관리자가 각 컨테이너 별 리소스 자원을 할당하면 그만이겠죠. 하지만 만약 앱의 기능과 사용자 수가 사소한 수준 이상이라면, 컨테이너 오케스트레이션 시스템을 사용하지 않고 직접 해결하기 어려워집니다. 무엇보다 아키텍처의 트렌드가 모놀리식(Monolithic Architecture)에서 마이크로서비스(Microservice Architecture)로 변화하는 과정에서 컨테이너의 수는 계속 증가할 것이고 무중단 서비스, 즉 고가용성을 제공해야 하는 환경이라면 컨테이너 오케스트레이션은 원활한 서비스 구성을 위한 필수 요소라고 할 수 있습니다. 마이크로서비스 아키텍처 환경에서는 애플리케이션의 세부 기능들이 작은 서비스 단위로 분리되어 있습니다. 이 각각의 서비스를 구현하는데 컨테이너 기술이 가장 흔하게 이용되는데요, 다수의 컨테이너를 관리하는 상황이라면 위의 4가지 이슈에 대한 해답을 찾아야 합니다. │쿠버네티스의 핵심 아키텍처 앞서 살펴본 4가지 이슈를 해결하기 위해 쿠버네티스는 아래와 같은 네 가지 핵심 아키텍처로 구성되어 있습니다. ① 선언적 구성 기반의 배포 환경 쿠버네티스는 동작을 지시하는 개념보다는 원하는 상태를 선언하는 개념을 주로 사용합니다. 즉 사용자가 설정한 원하는 상태(Desired State)와 현재의 상태(Current State)가 일치하는지를 지속적으로 체크하면서 업데이트합니다. 결과적으로 ‘이렇게 되어야 해!’ 라는 선언적 방식으로 명령을 주면 쿠버네티스는 이를 해석하여 컨테이너들을 자동으로 관리하게 됩니다. ② 기능 단위의 분산 쿠버네티스에서는 각각의 기능들이 모두 독립적인 컴포넌트로 분산되어 있습니다. 앞으로 후술할 쿠버네티스 ‘APIserver’를 통해 내부 컴포넌트들을 컨트롤 하고 있습니다. ③ 클라스터 단위의 중앙 제어 쿠버네티스는 가용할 수 있는 리소스를 클러스터 > 노드 > 파드 단위로 추상화 하여 관리합니다. 각각의 클러스터를 통해 노드를 관리하고 노드 안의 컨테이너를 효율적으로 관리할 수 있습니다. ④ API 기반의 네트워킹 쿠버네티스의 구성 요소들은 오직 ‘APIserver’를 통해서만 상호 접근이 가능한 구조를 가지고 있습니다. 마스터 노드의 ‘Kubectl’라는 컴포넌트를 거쳐 실행되는 모든 명령은 이 API 서버를 거쳐 수행되며, 워커 노드에 포함된 ‘Kubelet’, ‘Kube-proxy’ 역시 API 서버를 통해 상호작용하게 되어 있습니다. │쿠버네티스의 오케스트레이션 기능 컨테이너 오케스트레이션의 핵심은 컨테이너의 프로비저닝, 배포, 네트워킹, 확장 가용성, 라이프사이클 관리, 상태 모니터링 일체를 자동화하는 데 있습니다. 쿠버네티스가 제공하는 오케스트레이션 기능은 위의 컨테이너 관리 이슈에 대한 적절한 해결책을 제공합니다. 이미지 출처 ⓒ https://kubernetes.io/ko ① 오토스케일링 (Auto-Scaling) 쿠버네티스에서 생성하고 관리할 수 있는 가장 작은 컴퓨팅 단위를 파드(Pod)라고 부르는데요. 쿠버네티스는 각 클러스터 안에 있는 노드의 CPU와 메모리 자원에 대한 할당을 Pod를 통해 자동으로 조정합니다. 만약 부하가 증가하여 리소스를 과하게 점유하고 있다면 자동으로 파드 복제본이 실행되어 가용성을 확보할 수 있습니다. ② 스케줄링 (Scheduling) 컨테이너를 일정한 알고리즘에 기초하여 구체적으로 어떤 노드에서 움직이게 할지 배치하는 것을 스케줄링이라고 합니다. ‘Kube Scheduler’라는 컴포넌트를 통해 클러스터 내에 실행할 파드를 노드에 스케줄링 할 수 있습니다. ③ 오토 힐링 (Auto-Healing) 쿠버네티스는 사용자가 지정한 컨테이너의 상태를 지속적으로 관찰하여 비정상적인 상태를 감지하면 컨테이너를 재시작하고 스케줄링을 빠르게 재시작 할 수 있습니다. 사용자의 선언적 상태에 따라 응답하지 않은 컨테이너를 새롭게 구동 시킬 수 있습니다. ④ 분산 부하 (Load-Balancing) 하나의 서비스에 여러 개의 컨테이너가 구동 시, 서비스에 들어오는 요청을 컨테이너들 사이에 균등하게 분배하여 부하를 분산시킵니다. 이를 통해 급증하는 서비스 요청에 대해 효율적인 대응이 가능합니다. │쿠버네티스의 구성요소 쿠버네티스는 총 네 가지의 구성요소로 이루어져 있습니다. 이미지 출처 ⓒ https://kubernetes.io/ko ① 클러스터 (Cluster) CNCF 재단에 따르면 클러스터는 공통의 목표를 위해 작동하는 애플리케이션의 그룹이라고 정의하고 있습니다. 쉽게 표현하면, 클러스터는 컨테이너를 통해 실행되는 여러 서비스들의 집합이라고 할 수 있겠는데요. 클러스터의 구성 목적은 애플리케이션의 효율적인 관리에 그 목적이 있습니다. 일반적으로 컨트롤 타워 역할을 하는 마스터 노드와 컨테이너가 실행되는 워커 노드로 구성되어 있습니다. ② 마스터 노드 (Master Nodes) 마스터 노드는 클러스터 전체를 관리하는 컨트롤 타워의 역할을 합니다. 대규모의 컨테이너 관리를 위해 각 워커 노드들의 리소스 사용률을 고려하여 컨테이너 배치와 모니터링이 필요한데요. 클러스터 내에서 이 역할을 수행하는 노드를 마스터 노드라고 부릅니다. ③ 워커 노드 (Worker Nodes) 워커 노드는 마스터 노드의 컨트롤을 받아 실제 컨테이너를 실행하고 쿠버네티스 실행 환경을 관리합니다. ‘Kubelet’이라는 노드 컴포넌트를 통해 파드의 실행을 직접 관리하며 APIserver와 통신하게 됩니다. 하나의 노드는 일반적으로 여러 개의 파드로 구성됩니다. 마스터 노드를 통해 파드에 대한 스케줄링을 자동으로 처리할 수 있습니다. ④ 파드 (Pod) 쿠버네티스에서 생성하고 관리할 수 있는 가장 작은 컴퓨팅 단위입니다. 위의 그림과 같이 하나의 파드 안에 다수의 컨테이너 혹은 단일 컨테이너로 구성될 수 있는데요. 쿠버네티스는 파드를 통해 컨테이너가 동일한 리소스 및 로컬 네트워크를 공유하게 합니다. 위와 같은 방식으로 컨테이너를 그룹화하면 분산된 환경에서도 동일한 하드웨어를 공유하는 것처럼 컨테이너를 서로 통신할 수 있도록 만듭니다. 파드의 사용 목적은 단순합니다. 일반적으로 서로 다른 컨테이너들이 각기 다른 기능들을 수행하며 하나의 완전한 애플리케이션으로 이루어 지게 되는데요. 이 때, 파드를 통해 각 컨테이너들의 내부 통신이 가능하게 하고 모든 컨테이너에 동일한 환경을 제공해 줄 수 있습니다. 요약하면 파드는 컨테이너가 제공하는 모든 기능을 활용하는 동시에 프로세스가 함께 실행되는 것처럼 보이게 하는 역할을 합니다. │쿠버네티스의 주요 컴포넌트 쿠버네티스의 주요 컴포턴트를 컨트롤 플레인 컴포넌트와 노드 컴포넌트로 나눠서 살펴보겠습니다. ① 컨트롤 플레인 컴포넌트 (Control Plane Components) 마스터 노드의 컨테이너, 워커 노드의 관리는 컨트롤 플레인 컴포넌트를 통해 이루어집니다. 컨트롤 플레인 컴포넌트는 클러스터 전체의 워크로드 리소스 등 주요 구성 요소들을 배포하고 제어하는 역할을 합니다. * Kube-APIserver API서버 라는 이름에서 말해주듯이 쿠버네티스의 컴포넌트와 사용자와의 접점 역할을 맡고 있습니다. 쿠버네티스에서 클러스터의 모든 구성 요소들은 오직 API서버를 통해서만 상호 접근이 가능하도록 설계되어 있습니다. 쿠버네티스의 중앙관리자라는 표현이 어울릴지 모르겠지만, 파드의 생성부터 스케줄링, etcd와의 통신까지 쿠버네티스의 모든 동작 과정에 API서버는 쿠버네티스의 중심에 있습니다. * etcd etcd는 클러스터 안의 각 구성요소에 대한 정보가 키-값 형태로 저장된 자체적인 데이터베이스입니다. 현재 클러스터에 있는 컴포넌트가 몇 개인지, 각각의 파드들이 어떤 노드에 붙어 있는지, 어떤 컨테이너를 들고 있는지에 대한 모든 정보가 etcd에 저장됩니다. 중요한 점은 etcd가 다운된다면 클러스터는 제대로 동작하지 못하게 되므로 자체적인 백업 스케줄링은 쿠버네티스 관리에 필수 요소라고 할 수 있습니다. * kube-controller-manager 컨트롤러 매니저는 클러스터 내에 작업 중인 다양한 리소스들을 모니터링하며 사용자가 설정한 원하는 상태(Desired State)와 현재의 상태(Current State)가 일치하도록 관리하는 작업을 합니다. 주요 컨트롤러로는 파드 복제를 유지해 주는 레플리카셋(ReplicaSet), 앱 배포를 세밀하게 관리할 수 있는 디플로이먼트(Deployment) 등으로 구성되어 있으며, 하나의 패키징 된 형태를 가지고 있습니다. * Kube-Scheduler 스케줄러는 각 파드들이 어떤 노드에서 작업을 수행할지 결정해 주는 역할을 맡고 있습니다. 비유하자면 작업 장소를 선택해 주는 의사 결정만 담당하고 있으며 실질적인 배치 작업은 아래 설명할 Kubelet이 담당하고 있습니다. ② 노드 컴포넌트 (Node Components) 노드 컴포넌트는 노드에서 작동하는 파드들을 관리하기 컴포넌트입니다. 워커 노드뿐 아니라 마스터 노드에서도 존재합니다. * Kubelet Kebelet은 클러스터의 모든 노드에서 실행되는 에이전트입니다. 파드의 실행을 직접적으로 관리한다고 볼 수 있는데요. 컨테이너디(Containerd), 크라이오(CRI-O) 같은 컨테이너 런타임과도 통신이 가능하며 노드 내에 구동 중인 컨테이너에 대한 라이프사이클을 관리합니다. 본래 쿠버네티스에서는 컨테이너 생성과 실행을 위한 런타임 엔진으로 도커(Docker)를 지원해왔으나, 2022년 2월 기준으로 완전히 중단되었습니다. 물론 런타임 엔진에서 도커가 제외된다는 것이 클러스터에서 도커 자체를 사용하지 못하게 된다는 뜻은 아닙니다. * Kube-proxy Kube-proxy는 노드에서 구동되는 쿠버네티스 네트워크 프록시입니다. 쿠버네티스에서 서비스라고 불리는 내부/외부 트래픽을 어느 파드로 전달할 것인지에 대한 규칙을 생성하고 관리하는 역할을 합니다. 。。。。。。。。。。。。 쿠버네티스의 주요 오케스트레이션 기능과 쿠버네티스의 주요 구성 요소 및 컴포넌트들을 살펴보았는데요. 쿠버네티스만이 컨테이너의 관리 복잡성을 해결할 수 있는 유일한 오픈소스는 아닙니다. 아파치 소프트웨어 재단에서 개발한 ‘아파치 메소스(Apache Mesos)’, 도커에서 개발한 ‘도커 스웜(Docker Swarm)’ 등의 컨테이너 관리 오픈소스도 있지만 2024년 현재 쿠버네티스는 독점적인 위치를 차지하고 있습니다. 무엇보다 3대 퍼블릭 클라우드사인 AWS, Azure, GCP 모두 매니지드 쿠버네티스 플랫폼을 제공하고 있습니다. 국내 퍼블릭 클라우드인 kt cloud, 네이버클라우드, NHN클라우드, 가비아, 카카오클라우드, 삼성클라우드플랫폼 등 모두 각 클라우드 환경에 최적화된 쿠버네티스 서비스를 제공하고 있죠. 또한, RedHat은 쿠버네티스 기반의 오픈시프트(OpenShift)를 통해 CaaS(Container as a Service) 시장의 선점을 노리고 있습니다. 스타트업과 대기업을 가리지 않고 기업에서 운영하는 컨테이너 기반의 애플리케이션이 복잡화됨에 따라 컨테이너 오케스트레이션 관리 도구인 쿠버네티스는 이제 기업 IT 운영전략의 핵심 요소가 되었습니다. 제니우스 쿠버네티스 모니터링 화면 예시 브레인즈컴퍼니의 제니우스(Zenius) 역시 컨테이너 모니터링뿐 아니라 쿠버네티스에 대한 모니터링을 환경을 제공하고 있습니다. 멀티 클러스터 환경에서의 모든 클러스터에 대한 모니터링뿐 아니라 Object Meta 정보를 제공하며 다양한 임계치 기반의 이벤트 감시 설정으로 선제적 장애 대응이 가능합니다. ?참고 자료 쿠버네티스 공식 문서: Kubernetes Components 쿠버네티스 공식 문서: Options for Highly Available Topology 쿠버네티스 공식 문서: Container runtimes
2024.02.05
회사이야기
[전시회] ‘공공용 민간 SaaS 서비스 제공기업’으로 선정된 브레인즈컴퍼니
회사이야기
[전시회] ‘공공용 민간 SaaS 서비스 제공기업’으로 선정된 브레인즈컴퍼니
브레인즈컴퍼니가 행정안전부와 한국정보사회진흥원(NIA)가 선정한 ‘공공용 민간 SaaS 서비스 제공기업’에 선발되었습니다. 。。。。。。。。。。。。 공공용 민간 SaaS 시범이용 사업은? 공공용 민간 SaaS 시범 이용 사업이란, 중앙정부·지자체·공공기관이 업무처리를 위한 정보시스템이나 소프트웨어를 직접 구축하거나 구매하지 않고 민간 클라우드(SaaS)서비스 이용을 장려하는 사업입니다. 쉽게 요약한다면, 업무상 필요한 모든 서비스를 이제 SaaS 형태로 이용한다는 의미입니다! ‘디지털 플랫폼 정부’ 혁신활동의 일환인 이번 사업을 위해, 행정안전부와 NIA는 엄격한 심사를 거쳐서 제공기업을 선정했는데요. 서비스 제공기업 주요 심사기준 ▪CSAP(클라우드 보안인증) 획득 여부 ▪높은 등급의 기업신용평가 등급 ▪행정·공공 기관이 이용 가능한 SaaS 서비스 보유 여부 등 브레인즈컴퍼니는 위에 있는 내용을 중심으로 심사를 거쳐 네이버클라우드, 더존비즈온, 가비아 등과 함께 서비스 제공기업으로 선정되었습니다? 공공용 민간 SaaS 매칭데이 진행 서비스 제공기업 선정 이후에 사업 활성화를 위해, 지난 24일 부산 벡스코에서 ‘2023 대한민국 정부 박람회의 부대행사’로 「매칭데이」가 진행되었는데요. 현재 정부가 디지털 플랫폼 정부를 표방하는 만큼 박람회의 열기는 뜨거웠습니다! 매칭데이는 총 2부로 진행되었는데요. 1부는 SaaS 활용 촉진 사업 안내와 기업별 SaaS 소개, 2부에서는 ‘맞춤 상담’으로 구성되었습니다. 1부ㅣ브레인즈컴퍼니의 특장점이 주목받다 1부에서는 기업별 SaaS 소개 순서에서 저희 브레인즈컴퍼니도 발표를 진행했습니다. 연속적인 기술 지원으로 높은 만족도의 고객서비스 제공, IT 인프라 서비스 관리를 위한 20여 종의 플랫폼 서비스, 높은 신용평가 등급 및 다수의 고객 등! 발표를 통해 소개된 브레인즈컴퍼니와 서비스의 특장점에 대해서 많은 참관객분들께서 관심을 가져주셨습니다. 2부ㅣ기업별 맞춤 상담에도 이어진 관심 2부에서는 벡스코 회의실에 위치한 전담 부스에서, 고객별 상황에 따른 ‘맞춤 상담’ 시간을 가졌는데요. 비록 약 100분의 길지 않은 시간이었지만, 많은 분들이 저희 부스를 찾아주셨습니다. 부스에서는 제니우스(Zenius) EMS의 실제 데모 화면을 기반으로 자세히 설명을 드리고, 고객 상황별 맞춤 안내를 진행하여 좋은 반응을 얻을 수 있었습니다! 。。。。。。。。。。。。 공공용 민간 SaaS 서비스 제공 업체로 선정된 브레인즈컴퍼니는, 이번 매칭데이를 시작으로 보다 많은 행정기관 및 공기업에 IT 인프라·서비스 통합 모니터링 서비스를 제공하는데 속도를 낼 예정입니다. 브레인즈컴퍼니가 공공용 관제 서비스 시장에서 지속해서 선두를 유지하고, ‘디지털 정부 플랫폼’으로의 혁신에 기여할 수 있도록 많은 관심과 응원 부탁드립니다! 감사합니다?♀️
2023.12.07
회사이야기
2023년 하반기 ‘고객사 및 파트너사’ 상생 세미나
회사이야기
2023년 하반기 ‘고객사 및 파트너사’ 상생 세미나
지난 10월 25일, 브레인즈컴퍼니 본사에서 「2023 하반기 ‘고객사 및 파트너사’ 상생 세미나」를 진행했어요! 브레인즈컴퍼니는 매 반기마다 고객사 및 파트너사 분들을 대상으로 상생 세미나를 진행하고 있는데요. 저희 브레인즈컴퍼니의 제니우스 EMS를 더욱 친숙하게 사용하는 것을 돕기 위해 기획되었어요. 이번 2023 하반기 상생 세미나에서는 우진·서울바이오허브·에스이랩·마이티시스템 등 산업용 장비를 만드는 제조기업부터, 바이오산업을 투자해 주는 공공기관까지! 다양한 산업 군의 고객사분들이 적극 관심을 보여주셨는데요. 교육 내용은 제니우스 EMS 패키지 설치, 모니터링 View를 구성하는 단계, 실무적인 모니터링에 초점을 맞춰 실시했답니다. 그럼 바로 2023 하반기 상생 세미나 후기를 들려드릴게요! Zenius SMS와 Zenius NMSㅣ김선효(TC팀) ‘제니우스 SMS(서버 모니터링 솔루션)’와 ‘제니우스 NMS(네트워크 모니터링 솔루션)’부터 교육을 시작했는데요. 우선 전반적인 성능 정보 수집 방식과 설치 방식을 배웠어요. 그다음, 화면을 통해 이벤트 분석하는 방법까지 세세한 교육이 이루어졌답니다. Zenius Overviewㅣ김기현(TC팀) ‘제니우스 EMS 오버뷰’는, 고객의 니즈와 운영 환경에 최적화된 서비스 관제 환경을 구현해 드리고 있어요. 웹과 CS방식의 토폴로지 맵을 통해 관제하는 IT 인프라들 간의 상호 관계도 표현 또한 가능하죠. 이 밖에도 IT 인프라와 네트워크 연결 관계에 대한 컴포넌트 지원, 사용자 니즈에 최적화된 연결 관계도 기반의 View를 제공해 드린답니다. 마무리하며 이번 2023 ‘고객사 및 파트너사’ 상생 세미나를 통해, 핵심적인 IT 인프라인 서버와 네트워크 모니터링 방안을 소개해 드렸는데요. 고객사 및 파트너 사분들께 교육을 진행하며, 브레인즈컴퍼니 또한 ‘IT 인프라 모니터링’ 인사이트를 넓힐 수 있었어요. 오는 11월 29일부터 12월 1일까지 「소프트웨이브 2023」가 진행되는데요. 클라우드 네이티브, 쿠버네티스, MSA 등! 급변하고 있는 IT 인프라 환경 변화를 브레인즈컴퍼니는 어떻게 준비하고 있는지 함께 이야기할 수 있는 자리를 마련했어요. 여러분들의 많은 관심과 참여 부탁드릴게요. 다시 한번 참여해 주신 모든 분께 감사 인사를 드려요! 앞으로도 IT 모니터링의 최전선에서 함께 고민하고, 최적의 관제 환경을 제공하는 브레인즈컴퍼니가 될게요?♀️
2023.11.10
기술이야기
카프카를 통한 로그 관리 방법
기술이야기
카프카를 통한 로그 관리 방법
안녕하세요! 저는 개발4그룹에서 제니우스(Zenius) SIEM의 로그 관리 기능 개발을 담당하고 있는 김채욱 입니다. 제가 하고 있는 일은 실시간으로 대용량 로그 데이터를 수집하여 분석 후, 사용자에게 가치 있는 정보를 시각화하여 보여주는 일입니다. 이번 글에서 다룰 내용은 1) 그동안 로그(Log)에 대해 조사한 것과 2) 최근에 CCDAK 카프카 자격증을 딴 기념으로, 카프카(Kafka)를 이용하여 어떻게 로그 관리를 하는지에 대해 이야기해 보겠습니다. PART1. 로그 1. 로그의 표면적 형태 로그(Log)는 기본적으로 시스템의 일련된 동작이나 사건의 기록입니다. 시스템의 일기장과도 같죠. 로그를 통해 특정 시간에 시스템에서 ‘어떤 일’이 일어났는지 파악할 수도 있습니다. 이렇게 로그는 시간에 따른 시스템의 동작을 기록하고, 정보는 순차적으로 저장됩니다. 이처럼 로그의 핵심 개념은 ‘시간’입니다. 순차적으로 발생된 로그를 통해 시스템의 동작을 이해하며, 일종의 생활기록부 역할을 하죠. 시스템 내에서 어떤 행동이 발생하였고, 어떤 문제가 일어났으며, 유저와의 어떤 교류가 일어났는지 모두 알 수 있습니다. 만약 시간의 개념이 없다면 어떻게 될까요? 발생한 모든 일들이 뒤섞이며, 로그 해석을 하는데 어려움이 생기겠죠. 이처럼 로그를 통해 시스템은 과거의 변화를 추적합니다. 똑같은 상황이 주어지면 항상 같은 결과를 내놓는 ‘결정론적’인 동작을 보장할 수 있죠. 로그의 중요성, 이제 조금 이해가 되실까요? 2. 로그와 카프카의 관계 자, 그렇다면! 로그(Log)와 카프카(Kafka)는 어떤 관계일까요? 우선 카프카는 분산 스트리밍 플랫폼으로서, 실시간으로 대용량의 데이터를 처리하고 전송하는데 탁월한 성능을 자랑합니다. 그 중심에는 바로 ‘로그’라는 개념이 있는데요. 좀 더 자세히 짚고 넘어가 보겠습니다. 3. 카프카에서의 로그 시스템 카프카에서의 로그 시스템은, 단순히 시스템의 에러나 이벤트를 기록하는 것만이 아닙니다. 연속된 데이터 레코드들의 스트림을 의미하며, 이를 ‘토픽(Topic)’이라는 카테고리로 구분하죠. 각 토픽은 다시 *파티션(Partition)으로 나누어, 단일 혹은 여러 서버에 분산 저장됩니다. 이렇게 분산 저장되는 로그 데이터는, 높은 내구성과 가용성을 보장합니다. *파티션(Partition): 하드디스크를 논리적으로 나눈 구역 4. 카프카가 로그를 사용하는 이유 로그의 순차적인 특성은 카프카의 ‘핵심 아키텍처’와 깊게 연결되어 있습니다. 로그를 사용하면, 데이터의 순서를 보장할 수 있어 대용량의 데이터 스트림을 효율적으로 처리할 수 있기 때문이죠. 데이터를 ‘영구적’으로 저장할 수 있어, 데이터 손실 위험 또한 크게 줄어듭니다. 로그를 사용하는 또 다른 이유는 ‘장애 복구’입니다. 서버가 장애로 인해 중단되었다가 다시 시작되면, 저장된 로그를 이용하여 이전 상태로 복구할 수 있게 되죠. 이는 ‘카프카가 높은 가용성’을 보장하는 데 중요한 요소입니다. ∴ 로그 요약 로그는 단순한 시스템 메시지를 넘어 ‘데이터 스트림’의 핵심 요소로 활용됩니다. 카프카와 같은 현대의 데이터 처리 시스템은 로그의 이러한 특성을 극대화하여, 대용량의 실시간 데이터 스트림을 효율적으로 처리할 수 있는 거죠. 로그의 중요성을 다시 한번 깨닫게 되는 순간이네요! PART2. 카프카 로그에 이어 에 대해 설명하겠습니다. 들어가기에 앞서 가볍게 ‘구조’부터 알아가 볼까요? 1. 카프카 구조 · 브로커(Broker) 브로커는 *클러스터(Cluster) 안에 구성된 여러 서버 중 각 서버를 의미합니다. 이러한 브로커들은, 레코드 형태인 메시지 데이터의 저장과 검색 및 컨슈머에게 전달하고 관리합니다. *클러스터(Cluster): 여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합 데이터 분배와 중복성도 촉진합니다. 브로커에 문제가 발생하면, 데이터가 여러 브로커에 데이터가 복제되어 데이터 손실이 되지 않죠. · 프로듀서(Producer) 프로듀서는 토픽에 레코드를 전송 또는 생성하는 *엔터티(Entity)입니다. 카프카 생태계에서 ‘데이터의 진입점’ 역할도 함께 하고 있죠. 레코드가 전송될 토픽 및 파티션도 결정할 수 있습니다. *엔터티(Entity): 업무에 필요한 정보를 저장하고 관리하는 집합적인 것 · 컨슈머(Consumer) 컨슈머는 토픽에서 레코드를 읽습니다. 하나 이상의 토픽을 구독하고, 브로커로부터 레코드를 소비합니다. 데이터의 출구점을 나타내기도 하며, 프로듀서에 의해 전송된 메시지를 최종적으로 읽히고 처리되도록 합니다. · 토픽(Topic) 토픽은 프로듀서로부터 전송된 레코드 카테고리입니다. 각 토픽은 파티션으로 나뉘며, 이 파티션은 브로커 간에 복제됩니다. 카프카로 들어오는 데이터를 조직화하고, 분류하는 방법을 제공하기도 합니다. 파티션으로 나눔으로써 카프카는 ‘수평 확장성과 장애 허용성’을 보장합니다. · 주키퍼(ZooKeeper) 주키퍼는 브로커를 관리하고 조정하는 데 도움을 주는 ‘중앙 관리소’입니다. 클러스터 노드의 상태, 토픽 *메타데이터(Metadata) 등의 상태를 추적합니다. *메타데이터(Metadata): 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터 카프카는 분산 조정을 위해 주키퍼에 의존합니다. 주키퍼는 브로커에 문제가 발생하면, 다른 브로커에 알리고 클러스터 전체에 일관된 데이터를 보장하죠. ∴ 카프카 구조 요약 요약한다면 카프카는 1) 복잡하지만 견고한 아키텍처 2) 대규모 스트림 데이터를 실시간으로 처리하는 데 있어 안정적이고 장애 허용성이 있음 3) 고도로 확장 가능한 플랫폼을 제공으로 정리할 수 있습니다. 이처럼 카프카가 큰 데이터 환경에서 ‘어떻게’ 정보 흐름을 관리하고 최적화하는지 5가지의 구조를 통해 살펴보았습니다. 이제 카프카에 대해 조금 더 명확한 그림이 그려지지 않나요? 2. 컨슈머 그룹과 성능을 위한 탐색 카프카의 가장 주목할 만한 특징 중 하나는 ‘컨슈머 그룹의 구현’입니다. 이는 카프카의 확장성과 성능 잠재력을 이해하는 데 중심적인 개념이죠. 컨슈머 그룹 이해하기 카프카의 핵심은 ‘메시지를 생산하고 소비’ 하는 것입니다. 그런데 수백만, 심지어 수십억의 메시지가 흐르고 있을 때 어떻게 효율적으로 소비될까요? 여기서 컨슈머 그룹(Consumer Group)이 등장합니다. 컨슈머 그룹은, 하나 또는 그 이상의 컨슈머로 구성되어 하나 또는 여러 토픽에서 메시지를 소비하는데 협력합니다. 그렇다면 왜 효율적인지 알아보겠습니다. · 로드 밸런싱: 하나의 컨슈머가 모든 메시지를 처리하는 대신, 그룹이 부하를 분산할 수 있습니다. 토픽의 각 파티션은 그룹 내에서 정확히 하나의 컨슈머에 의해 소비됩니다. 이는 메시지가 더 빠르고 효율적으로 처리된다는 것을 보장합니다. · 장애 허용성: 컨슈머에 문제가 발생하면, 그룹 내의 다른 컨슈머가 그 파티션을 인수하여 메시지 처리에 차질이 없도록 합니다. · 유연성: 데이터 흐름이 변함에 따라 그룹에서 컨슈머를 쉽게 추가하거나 제거합니다. 이에 따라 증가하거나 감소하는 부하를 처리할 수 있습니다. 여기까지는 최적의 성능을 위한 ‘카프카 튜닝 컨슈머 그룹의 기본 사항’을 다루었으니, 이와 관련된 ‘성능 튜닝 전략’에 대해 알아볼까요? 성능 튜닝 전략 · 파티션 전략: 토픽의 파티션 수는, 얼마나 많은 컨슈머가 활성화되어 메시지를 소비할 수 있는지 영향을 줍니다. 더 많은 파티션은 더 많은 컨슈머가 병렬로 작동할 수 있음을 의미하는 거죠. 그러나 너무 많은 파티션은 *오버헤드를 야기할 수 있습니다. *오버헤드: 어떤 처리를 하기 위해 간접적인 처리 시간 · 컨슈머 구성: *fetch.min.bytes 및 *fetch.max.wait.ms와 같은 매개변수를 조정합니다. 그다음 한 번에 얼마나 많은 데이터를 컨슈머가 가져오는지 제어합니다. 이러한 최적화를 통해 브로커에게 요청하는 횟수를 줄이고, 처리량을 높입니다. *fetch.min.bytes: 한 번에 가져올 수 있는 최소 데이터 사이즈 *fetch.max.wait.ms: 데이터가 최소 크기가 될 때까지 기다릴 시간 · 메시지 배치: 프로듀서는 메시지를 함께 배치하여 처리량을 높일 수 있게 구성됩니다. *batch.size 및 *linger.ms와 같은 매개변수를 조정하여, 대기 시간과 처리량 사이의 균형을 찾을 수 있게 되죠. *batch.size: 한 번에 모델이 학습하는 데이터 샘플의 개수 *linger.ms: 전송 대기 시간 · 압축: 카프카는 메시지 압축을 지원하여 전송 및 저장되는 데이터의 양을 줄입니다. 이로 인해 전송 속도가 빨라지고 전체 성능이 향상될 수 있습니다. · 로그 정리 정책: 카프카 토픽은, 설정된 기간 또는 크기 동안 메시지를 유지할 수 있습니다. 보존 정책을 조정하면, 브로커가 저장 공간이 부족해지는 점과 성능이 저하되는 점을 방지할 수 있습니다. 3. 컨슈머 그룹과 성능을 위한 실제 코드 예시 다음 그림과 같은 코드를 보며 조금 더 자세히 살펴보겠습니다. NodeJS 코드 중 일부를 발췌했습니다. 카프카 설치 시에 사용되는 설정 파일 *server.properties에서 파티션의 개수를 CPU 코어 수와 같게 설정하는 코드입니다. 이에 대한 장점들을 쭉 살펴볼까요? *server.properties: 마인크래프트 서버 옵션을 설정할 수 있는 파일 CPU 코어 수에 파티션 수를 맞추었을 때의 장점 · 최적화된 리소스 활용: 카프카에서는 각 파티션이 읽기와 쓰기를 위한 자체 *I/O(입출력) 스레드를 종종 운영합니다. 사용 가능한 CPU 코어 수와 파티션 수를 일치시키면, 각 코어가 특정 파티션의 I/O 작업을 처리합니다. 이 동시성은 리소스에서 최대의 성능을 추출하는 데 도움 됩니다. · 최대 병렬 처리: 카프카의 설계 철학은 ‘병렬 데이터 처리’를 중심으로 합니다. 코어 수와 파티션 수 사이의 일치는, 동시에 처리되어 처리량을 높일 수 있습니다. · 간소화된 용량 계획: 이 접근 방식은, 리소스 계획에 대한 명확한 기준을 제공합니다. 성능 병목이 발생하면 CPU에 *바인딩(Binding)되어 있는지 명확하게 알 수 있습니다. 인프라를 정확하게 조정할 수도 있게 되죠. *바인딩(Binding): 두 프로그래밍 언어를 이어주는 래퍼 라이브러리 · 오버헤드 감소: 병렬 처리와 오버헤드 사이의 균형은 미묘합니다. 파티션 증가는 병렬 처리를 촉진할 수 있습니다. 하지만 더 많은 주키퍼 부하, 브로커 시작 시간 연장, 리더 선거 빈도 증가와 같은 오버헤드도 가져올 수도 있습니다. 파티션을 CPU 코어에 맞추는 것은 균형을 이룰 수 있게 합니다. 다음은 프로세스 수를 CPU 코어 수만큼 생성하여, 토픽의 파티션 개수와 일치시킨 코드에 대한 장점입니다. 파티션 수와 컨슈머 프로세스 수 일치의 장점 · 최적의 병렬 처리: 카프카 파티션의 각각은 동시에 처리될 수 있습니다. 컨슈머 수가 파티션 수와 일치하면, 각 컨슈머는 특정 파티션에서 메시지를 독립적으로 소비할 수 있게 되죠. 따라서 병렬 처리가 향상됩니다. · 리소스 효율성: 파티션 수와 컨슈머 수가 일치하면, 각 컨슈머가 처리하는 데이터의 양이 균등하게 분배됩니다. 이로 인해 전체 시스템의 리소스 사용이 균형을 이루게 되죠. · 탄력성과 확장성: 트래픽이 증가하면, 추가적인 컨슈머를 컨슈머 그룹에 추가하여 처리 능력을 증가시킵니다. 동일한 방식으로 트래픽이 감소하면 컨슈머를 줄여 리소스를 절약할 수 있습니다. · 고가용성과 오류 회복: 컨슈머 중 하나가 실패하면, 해당 컨슈머가 처리하던 파티션은 다른 컨슈머에게 자동 재분배됩니다. 이를 통해 시스템 내의 다른 컨슈머가 실패한 컨슈머의 작업을 빠르게 인수하여, 메시지 처리가 중단되지 않습니다. 마지막으로 각 프로세스별 컨슈머를 생성해서 토픽에 구독 후, 소비하는 과정을 나타낸 소스코드입니다. ∴ 컨슈머 그룹 요약 컨슈머 그룹은 높은 처리량과 장애 허용성 있는 메시지 소비를 제공하는 능력이 핵심입니다. 카프카가 어떤 식으로 운영되는지에 대한 상세한 부분을 이해하고 다양한 매개변수를 신중하게 조정한다면, 어떠한 상황에서도 카프카의 최대 성능을 이끌어낼 수 있습니다! ------------------------------------------------------------ ©참고 자료 · Jay Kreps, “I Hearts Logs”, Confluent · 위키피디아, “Logging(computing)” · Confluent, “https://docs.confluent.io/kafka/overview.html” · Neha Narkhede, Gwen Shapira, Todd Palino, “Kafka: The Definitive Guide” ------------------------------------------------------------
2023.09.19
사람이야기
신입 개발자의 브레인즈컴퍼니 합류 여정
사람이야기
신입 개발자의 브레인즈컴퍼니 합류 여정
안녕하세요. 저는 개발 2그룹 인프라웹팀의 신입 개발자 홍유석입니다. 2023년 1월 30일에 합류해 벌써 3달이 훌쩍 지났네요. 제가 브레인즈에 지원 후 서류 합격을 하고, 코딩 테스트와 인터뷰를 준비해야 했을 때, 관련 정보나 후기가 거의 없어 어떻게 준비해야 할지 많이 고민했던 기억이 납니다. 그래서 이 글이 브레인저를 꿈꾸시는 분들에게 조금이나마 도움이 됐으면 하는 마음으로, 브레인즈컴퍼니 지원부터 합격 후 입사 준비 과정까지의 제 경험을 이야기해 드리려 합니다. ----------------------------------------------------- 합류 과정 브레인즈컴퍼니 합류 과정은 지원서를 제출하는 ‘서류 지원’, 기본적인 코딩 능력을 갖추고 있는지 확인하기 위한 ‘코딩 테스트’, 기술 역량을 확인하기 위한 ‘인터뷰’, 그리고 앞에 모든 과정을 통과한 후 입사에 필요한 서류를 준비하고 제출하는 ‘프리 보딩’ 순으로 진행됐습니다. 지금부터 각각의 과정이 어떻게 진행됐고, 무엇을 준비하면 좋을지 좀 더 자세히 전달해 드리도록 하겠습니다. 서류 지원 저는 채용 사이트를 통해서 브레인즈컴퍼니의 공고를 확인하고 지원하게 됐습니다. 지원 서류에 크게 정해진 형식이 없었기 때문에 이력서 겸 포트폴리오를 작성해 제출했습니다. 이때 지원 서류를 작성하며 가장 신경 썼던 부분이 적정한 분량으로 저의 역량을 잘 드러나게 하는 것이었습니다. 지금까지 개발자를 준비하며 많은 것들을 경험하고 공부했지만 이러한 내용들을 모두 담으면 지원 서류가 너무 길어지게 됐습니다. 또, 이러한 점은 여러 지원자들의 서류를 검토하는 분들에게 읽기 힘든 지원 서류가 될 수 있다고 생각해 제 역량을 잘 드러낼 수 있는 프로젝트를 선택해 내용을 구성했습니다. 프로젝트에 대한 내용을 담을 때도 모든 내용을 담지 않고 제가 맡은 부분에서 문제를 어떻게 해결했는지를 중심으로 작성했습니다. 코딩 테스트 코딩 테스트 안내는 굉장히 빠르게 이뤄졌습니다. 서류 지원 이틀 후에 채용 담당자분이 전화와 메일로 테스트 방법과 시간에 대해 자세한 안내를 해 주셨습니다. 코딩 테스트는 온라인 플랫폼에 원하는 시간에 접속해 정해진 시간 동안 문제를 푸는 방식으로 진행됐습니다. 총 50분의 시간이 주어졌으며 SQL, Java, Javascript, HTML, JQuery 등으로 이뤄진 10문제를 해결해야 했습니다. 50분에 10문제를 풀어야 하는 만큼 오래 고민해야 하는 문제가 아닌 기본적인 개념을 잘 이해하고 있는지 확인하는 문제들이었습니다. 따라서 평소에 기본기를 잘 다져 놓으시거나 짧게라도 코딩 테스트를 준비해 보셨다면 큰 어려움 없이 문제를 해결하실 수 있을 것으로 생각됩니다. 추가로 브레인즈컴퍼니의 코딩테스트를 푸는 방법에 대한 팁을 좀 더 드리자면, 시간이 짧기 때문에 자신있는 문제들을 먼저 풀어 점수를 확보하고, 잘 모르는 문제들은 나중에 도전해 보면서 부분 점수를 확보하는 방법을 추천해 드립니다. 면접 면접에 대한 안내 역시 빠르게 이뤄졌습니다. 코딩 테스트 후 바로 다음 날 채용 담당자분이 연락을 주셨고 면접 날짜와 시간을 조율해 3일 후 면접을 보게 됐습니다. 면접까지 남은 시간 동안에는 지금까지 공부했던 내용들을 다시 정리하고, 회사 사이트에 들어가 회사가 무슨 일을 하고 어떠한 가치관을 중요하게 여기는지 파악하며 면접을 준비했습니다. 면접은 회사에서 오프라인으로 1시간 30분 동안 이뤄졌으며, 인사 면접과 기술 면접을 담당하시는 두 분이 면접관으로 들어오셨습니다. 기억나는 질문을 정리해 보자면, ∙ 자기소개 ∙ 앞서 본 코딩 테스트에 대한 질문 ∙ 지원서 기반의 질문 ∙ 기본 CS 지식에 대한 질문 ∙ 인성 및 회사 문화에 관련된 질문이 주어졌습니다. 질문 대부분이 실제로 겪은 문제, 또는 특정 상황에서 주어진 문제를 어떻게 해결할 수 있는지 물어보고 있었기 때문에 문제 해결 방법과 이유를 잘 전달하기 위해 노력했습니다. 물론 모든 질문들에 대답할 수 있었던 것은 아니었습니다. 모르는 질문 또한 있었으며 이러한 경우 아는 만큼 대답하되 모르는 것을 아는 척하지 않으려 노력했습니다. 면접이 끝난 후 들었던 생각은 “면접관분들의 배려로 편안한 분위기에서 면접이 진행돼, 준비한 내용들을 잘 전달할 수 있었다”라는 것입니다. 따라서 면접을 보게 되시는 분들이 기본적인 CS 지식을 열심히 공부하셨고, 자신이 한 프로젝트의 내용을 잘 정리해 준비하셨다면 좋은 결과를 얻으실 수 있을 것으로 생각됩니다. 합격 안내와 프리 보딩 합격 안내까지도 빠르게 이뤄졌습니다. 면접 당일 오후 5시 정도에 전화 연락과 오퍼 레터를 메일로 받았습니다. 이후 저 또한 입사를 결정해 첫 출근 날짜를 정하고 입사 수락 메일을 보냈습니다. 첫 출근까지 9일 정도의 여유 시간이 있었기에 가족들과 시간을 보내는 등 충분한 휴식을 취하면서 입사 준비를 했습니다. 프리 보딩의 경우, 브레인즈의 인사 담당자가 보낸 안내 메일에 따라 첫 출근 전까지 필요한 서류들을 준비하고, 프로필 사진 및 자기소개를 메일로 보내는 형태로 진행됐습니다. 인사 담당자가 안내도 상세히 해 주셨고, 준비해야 할 것들도 간단했기에 큰 어려움 없이 필요한 것들 모두 첫 출근까지 준비할 수 있었습니다. 글을 마치며 이 글을 쓰고 있는 지금 저는 브레인즈컴퍼니에서 근무한지 어느덧 3개월이 지나, 수습 기간을 잘 마무리하고 정직원이 됐습니다. 첫 출근부터 지금까지 과제와 실제 업무를 수행하고 신입 사원 공유 회의에 참여하며, 회사의 서비스와 업무 프로세스를 파악하는 시간을 가졌습니다. 실수도 많고 부족한 점도 많았지만 항상 자신의 일처럼 도와주는 좋은 팀원분들 덕분에 잘 적응하고 성장할 수 있었습니다. 제 글이 브레인즈컴퍼니 입사를 목표로 하는 분들에게 도움이 됐으면 좋겠습니다. 그리고 원하는 결과를 얻어 회사의 좋은 팀원분들과 함께 일하면서 서로의 성장을 도와주게 되길 바라며, 브레인즈컴퍼니의 합류 과정에 대한 글을 마무리하도록 하겠습니다. 시간 내어 긴 글 읽어주셔서 감사합니다.
2023.05.02
기술이야기
옵저버빌리티 향상을 위한 제니우스 대표 기능들
기술이야기
옵저버빌리티 향상을 위한 제니우스 대표 기능들
이번 블로그에서는 지난 블로그에서 다루었던 옵저버빌리티를 구현하기 위한 오픈 소스들은 어떤 것들이 있는지 간략히 알아보고, 제니우스(Zenius-EMS)에서는 옵저버빌리티 향상을 위해서 어떤 제품들을 제공하고 있는 지 살펴보겠습니다. 옵저버빌리티 구현을 위해 널리 활용되는 대표적인 오픈소스로는 아래 네 가지 정도를 들 수 있습니다. l Prometheus: 메트릭 수집 및 저장을 전문으로 하는 도구입니다. Prometheus는 강력한 쿼리 기능을 가지고 있으며, 다양한 기본 메트릭을 제공하며 데이터 시각화를 위해 Grafana와 같은 도구와 통합될 수 있습니다. 또한 이메일, Slack 및 PagerDuty와 같은 다양한 채널을 통해 알림을 보낼 수 있습니다. l OpenTelemetry: 에이전트 추가 없이 원격으로 클라우드 기반의 애플리케이션이나 인프라에서 측정한 데이터, 트레이스와 로그를 백엔드에 전달하는 기술을 제공합니다. Java, Go, Python 및 .NET을 포함한 다양한 언어를 지원하며 추적 및 로그에 대한 통합 API를 제공합니다. l Jaeger: 분산 서비스 환경에서는 한번의 요청으로 서로 다른 마이크로서비스가 실행될 수 있습니다. Jaeger는 서비스 간 트랜잭션을 추적하는 기능을 가지고 있는 오픈 소스 소프트웨어입니다. 이 기능을 통해 애플리케이션 속도를 저해하는 병목지점을 찾을 수 있으며 동작에 문제가 있는 애플리케이션에서 문제의 시작점을 찾는데 유용합니다. l Grafana: 시계열 메트릭 데이터를 시각화 하는데 필요한 도구를 제공하는 툴킷입니다. 다양한 DB를 연결하여 데이터를 가져와 시각화 할 수 있으며, 그래프를 그릴 수도 있습니다. 시각화한 그래프에서 특정 수치 이상일 때 알람 기능을 제공하며 다양한 플러그인으로 기능확장이 가능합니다. ------------------------------------------------- 오픈 기술을 이용해 Do It Yourself 방식으로 옵저버빌리티를 구현한다면 어떨까요? 직접 옵저버빌리티를 구현하기 위해서는 먼저 필요한 데이터를 수집해야 합니다. 필요한 데이터가 무엇인지, 어떤 방식으로 수집할지 결정하고 Prometheus, OpenTelemetry 같은 도구들을 이용해 설치 및 설정합니다. 이 단계는 시간이 가장 오래 걸리고, 나중에 잘못된 구성이나 누락이 발견되기도 합니다. 다음 단계는 데이터 저장입니다. 이 단계에서 주의할 점은 예전처럼 여러 소스에서 수집한 데이터를 단순하게 저장하는 것이 아니라, 전체적인 관점에서 어떤 이벤트가 일어나는지를 추적이 가능하도록 데이터 간의 연결과 선후 관계를 설정하는 것입니다. 어려운 점은 새로운 클라우드 기술을 도입하거나 기존의 인프라나 애플리케이션에서 변경이 발생할 때마다 데이터를 계속해서 정리를 해야 하는데, 이를 위해 플랫폼을 지속적으로 수정하고 구성을 추가해야 한다는 것입니다. 마지막으로 부정확한 경고들은 제거해야 합니다. 비즈니스 상황과 데이터는 계속해서 변화하기 때문에 이에 맞게 베이스 라인을 지속적으로 확인하고, 임계치를 조정해서 불필요한 알람이나 노이즈 데이터가 생기는 것을 방지해야 합니다. 결론적으로 직접 옵저버빌리티를 구현하는 것은 처음에는 쉬워 보여도 고급 인력과 많은 시간을 확보해야 하며, 별개로 시간이 지남에 따라서 효율성과 확장성이 떨어진다는 점을 감안하면 대부분의 기업은 감당하기 어렵다고 할 수 있습니다. 그렇다면, Zenius(제니우스) EMS는 옵저버빌리티를 어떻게 확보하고 있을까요? 옵저버빌리티 향상을 위한 가장 기본적인 기능은 토폴로지맵 또는 대시보드입니다. 다양한 인프라의 물리적 논리적 연결구조들을 한 눈에 시각적으로 파악할 수 있도록 해야 합니다. Zenius는 각 인프라별 상황을 한 눈에 볼 수 있는 오버뷰와 시스템 전체를 조망할 수 있는 토폴로지맵, 그리고 서비스 별 상황들을 감시할 수 있는 대시보드 등 크게 세가지의 뷰어(Viewer)를 제공합니다. 인프라의 구성 상황에 따라 다층적으로 구성되어 고객들이 인프라에서 일어나는 상황을 즉각 알 수 있도록 해 줍니다. 이러한 뷰어들은 기존 ‘모니터링’의 개념에서 ‘옵저버빌리티’ 개념으로 진화화면서 좀 더 다층적, 다양화되는 형태로 진화하고 있습니다. 또한, Zenius는 기존의 각 인프라별로 단순히 감시를 설정하는 방식이 아닌 다양한 인프라로부터의 로그와 메트릭 정보를 이용해 어떤 상관관계가 있는지 분석하는 ‘복합감시’라는 서비스가 기본적으로 탑재돼 있습니다. 복합감시를 대표 기능에는 ERMS(Event Relation Management System), 스냅샷 그리고 조치 자동화 등을 들 수 있습니다. l ERMS 기능은 로깅, 메트릭 정보와 장비의 상태를 이용해 새로운 감시 기준을 만들어, 의미있는 이벤트를 생성해 사용자에게 개별 장비 수준이 아닌 서비스 관점에서 정확한 상황 정 보를 제공합니다. l 스냅샷은 서비스 동작에서 이벤트가 발생했을 때, 당시 상황을 Rawdata 기반으로 그대로 재현하는 기능으로 SMS, DBMS, APM, NMS 등 모든 인프라를 동시에 볼 수 있습니다. l 조치 자동화는 ERMS를 자동운영시스템과 연동해, 특정 상황에서 자동으로 스크립트를 실행해 제어하는 기능입니다. 트레이싱 기능은 APM에서 제공하는 기능으로, WAS(Web Application Server)에 인입되고 처리되는 모든 트랜잭션들을 실시간으로 모니터링하고 지연되고 있는 상황을 토폴로지 뷰를 통해 가시적으로 분석할 수 있습니다. 사용자는 토폴로지 뷰를 통해 수행 중인 액티브 트랜잭션의 상세정보와 WAS와 연결된 DB, 네트워크 등 여러 노드들 간의 응답속도 및 시간들을 직관적으로 파악할 수 있습니다. 제니우스의 또 다른 옵저버빌리티는 인공지능 기반의 미래 예측 기능으로 미래 상황을 시각적으로 보여줍니다. 인프라 종류에 상관없이 인공신경망 등 다양한 알고리즘을 통해 미래 데이터를 생성하고, 장애발생 가능성을 빠르게 파악해 서비스 다운타임이 없도록 도와줍니다. 또한 이상 탐지 기능은 보안 침해 또는 기타 비정상적인 활동을 나타낼 수 있는 시스템 로그, 메트릭 및 네트워크 트래픽의 비정상적인 패턴을 식별할 수 있습니다. 이상탐지 알고리즘은 시간이 지남에 따라 시스템 동작의 변화에 적응하고 새로운 유형의 위협을 식별하는 방법을 학습할 수 있습니다. 이상과 같이 Zenius(제니우스) EMS는 최고의 옵저버빌리티를 제공하기 위해서 연구개발에 매진하고 있습니다. 옵저버빌리티 향상을 위한 다양한 기능/제품들은 고객의 시스템과 조직 상황에 맞게 선별적으로 사용될 수 있습니다.
2023.04.19
1
2
3
4