반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
스토리지 관리
예방 점검
APM Solution
애플리케이션 관리
URL 관리
브라우저 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
AI 인공지능
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
최신이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
쿠버네티스와 Helm 등 CNCF의 주요 프로젝트
[행사] 브레인즈컴퍼니 신년회, 2023년을 돌아보고 2024년을 내다보다
이화정
2024.01.05
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
테라폼(Terraform)의 모든 것, 그리고 AWS EC2 생성하기
브레인저들의 새해를 여는
2024년 신년회
가 지난 4일(목) 본사 8층 라운지에서 열렸습니다.
오랜만에 브레인저 모두가 모인 자리에서 2023년을 돌아보고, 2024년을 함께 내다보는 시간을 가졌습니다. 그리고 장기근속자, 우수팀, 승진을 발표하고 축하하는 시간과 고기파티까지 열렸는데요! 신년회의 생생한 현장을 지금부터 살펴보겠습니다.
。。。。。。。。。。。。
[16:00]
2023년을 돌아보고 2024년을 내다보다
브레인즈컴퍼니의 각 분야를 담당하고 있는 본부장님들의 발표로 본격적인 신년회가 시작되었습니다.
첫 번째 순서는 전략사업본부의 은숙님이 맡아주셨습니다. 은숙님은 9부터 시작해서 1까지 각 숫자와 연관되어 있는 내용으로 2023년 회고와 2024년 계획을 말씀해 주셨습니다. 브레인즈컴퍼니의 영업
·
마케팅
·
고객관리를 총괄하고 계신만큼, 많은 고민과 진심이 담긴 발표였습니다!
은숙님은 발표를 통해
“2023년 어려운 시장 환경 가운데서도 모두 노력해서 많은 고객을 만나고 소프트웨이브같은 큰 행사도 성공적으로 치렀던 것 처럼, 2024년에도 모든 브레인저가 힘을 합치면 목표보다 더 높은 곳에 오를 수 있을 것”
이라고 강조해 주셨습니다.
다음으로 브레인즈컴퍼니의 중심! 개발그룹을 대표해서 자환님이 발표를 진행해 주셨습니다. 자환님은
“2023년에 빠르게 변화하고 있는 IT 환경과 고객 니즈에 맞춘 서비스를 지속적으로 개발하고 배포했다. 2024년에도 기존 출시된 쿠버네티스(Kubernetes) 모니터링 제품의 기능 고도화를 포함하여, 완성도 높은 기능과 서비스들을 선보일 계획”
이라고 밝혀주셨습니다.
마지막으로 경영지원팀 현보님은
“지난해 만족도가 높았던 해외연수(만족도 4.43/5)와 패밀리데이(만족도 4.56/5)를 포함하여, 2024년에는 더 다양한 행사와 교육 등을 통해 건강한 사내 문화를 만들겠다. 또한 브레인저들의 능력을 높일 수 있도록 지속적으로 노력하겠다”
라고 포부를 밝혀주셨습니다.
이렇게 각 본부별 2023년 회고와 2024년 비전을 알아볼 수 있었는데요. 본부장님들이 발표 중간중간 감사하고 수고했던 브레인저분들께, 진심 어린 감사의 마음을 전하며 마음이 따뜻해 지기도 했습니다.
[16:45]
재걸님의 총평 “2024년 우리가 꼭 기억해야 할 것은”
다음 순서로 재걸님(부사장)께서 2023년 한 해를 되돌아보는 총평과, 2024년 계획에 대해 발표하는 시간을 가졌습니다.
우선 2023년에 어려운 경제환경 속에서도 제니우스(Zenius)의 고객이 꾸준히 증가한 것과 큰 행사를 잘 마무리한 것, 그리고 쉬지 않고 새로운 서비스 개발에 힘쓴 것에 대해 격려해 주셨습니다.
2024년에는 브레인즈컴퍼니가 더 높이 도약할 수 있도록 Zenius의 경쟁력을 높이고, 자회사인 에이프리카와의 협업을 강화할 것을 강조하셨습니다.
[17:20]
깜짝 ‘나락’퀴즈쇼!
잠시 분위기를 바꿔 브레인즈 나락 퀴즈쇼도 진행됐습니다. 퀴즈를 맞추거나, 틀려도 나락(?)에 갈 수 있는 위험하고 재밌는 시간이었는데요. 한 분을 제외하곤 모두 정답을 맞춰주셨습니다
(자세한 내용 해당 브레인저들의 더 이상의 추락을 막기 위해 비공개로..)
. 이 퀴즈쇼를 통해 모든 브레인저가 함께 웃을 수 있었던 시간이었습니다.
[17:40]
각종 포상 수상식
다음으로는 각종 포상 및 승진자를 발표하고 축하하는 시간이 이어졌습니다. 먼저 장기근속자(5/10/15)들에 대한 포상이 진행되었는데요. 여기서 깨알 복지!
*브레인즈컴퍼니는 5년 근속자는 현금 100만 원 지급, 10년 근속자는 현금 300만 원과 휴가 3일 지급, 15년 근속자는 500만 원과 휴가 5일을 지급합니다.
다음으로는 2023 최우수 부서(디자인팀), 협력지원 포상에 이어 승진자 발표가 이어졌습니다. 모두 진심으로 축하드립니다?
[18:00]
신년회의 ‘꽃’ 회식
신년회에는 맛있는 음식이 빠질 수 없죠! 팀원들 간의 행복한 저녁 시간을 보내기 위해 근처 고깃집으로 향했는데요. 큰 규모의 식당을 단독으로 대관해 편하게 즐길 수 있었습니다.
팀원분들끼리 그간 못 했던 말들도 하고, 포상과 승진을 한 브레인저에게 서로 축하 인사를 하며, 회포를 푸는 시간을 가졌습니다.
이번 신년회를 통해 2023년 한 해를 되돌아보고, 2024년을 희망차고 행복하게 시작할 수 있었습니다. 무엇보다 브레인저분들이 함께 있어 더 뜻깊었던 시간이었습니다!
이렇게 브레인즈컴퍼니의 2024년은 힘차게 시작되었습니다.
#신년회
#사내문화
#사내복지
#행사
이화정
프리세일즈팀
프리세일즈팀에서 마케팅, 내외부 홍보, 콘텐츠 제작을 담당하고 있어요.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
Zenius를 통한 NVIDIA MIG 모니터링과 GPU 자원 최적화 방안
Zenius를 통한 NVIDIA MIG 모니터링과 GPU 자원 최적화 방안
최근 데이터 센터 운영자에게 GPU는 가장 가치 있는 자산이지만, 역설적으로 가장 관리하기 까다로운 숙제이기도 합니다. 특히 NVIDIA MIG 기술은 자원 효율성을 극대화했지만, 운영자에게는 GPU라는 전체 숲을 넘어 그 안의 나무 한 그루(인스턴스)까지 낱낱이 살펴봐야 하는 새로운 과제를 안겨주었습니다. 지금부터 MIG 환경에 최적화된 모니터링 체계가 필요한 이유를 살펴보고, Zenius가 어떻게 관리의 사각지대를 없애고 효과적인 통합 모니터링 체계를 구현하는지 자세히 살펴보겠습니다. 1. MIG(Multi-Instance GPU)란 무엇인가? 기존에는 하나의 GPU를 여러 명이 공유하기 위해 소프트웨어 방식의 가상화(vGPU)나 시분할(Time-sharing) 방식을 주로 사용했습니다. 하지만 이 방식은 자원을 나눠 쓰는 과정에서 서로 간섭(Interference)을 일으키거나, 보안상의 허점이 발생할 수 있다는 불안 요소가 있었죠. 이러한 한계를 극복하기 위해 NVIDIA Ampere 아키텍처(A100)부터 도입된 기술이 바로 MIG(Multi-Instance GPU)입니다. MIG는 소프트웨어가 아닌 하드웨어 수준에서 하나의 GPU를 최대 7개의 독립된 인스턴스로 분할하여, 마치 7개의 작은 GPU가 각자 작동하는 것과 같은 환경을 제공합니다. MIG의 장점을 자세히 살펴보면 독립된 하드웨어 자원 할당: 각 인스턴스는 전용 고대역폭 메모리(HBM), 캐시, 컴퓨팅 코어를 가집니다. 완벽한 격리(Isolation) 구현: 한 인스턴스에서 장애가 발생하거나 과부하가 걸려도 다른 인스턴스의 성능에 전혀 영향을 주지 않습니다. 예측 가능한 성능 보장: 공유 자원 경쟁이 없으므로 일관된 응답 속도(Latency)를 보장합니다. 2. 왜 MIG 환경에서는 새로운 모니터링이 필요할까? MIG 기술은 자원 운영 효율을 높여주지만, 관리자에게는 '단일 물리 장치'를 넘어 '수많은 독립 인스턴스'를 개별적으로 관리해야 하는 새로운 숙제를 안겨줍니다. 기존의 물리 GPU 단위 모니터링 방식만 고수할 경우 다음과 같은 실질적인 한계에 직면하게 됩니다. 가시성의 공백: 전체 GPU 사용률은 낮아 보여도, 특정 인스턴스는 이미 연산 한계(Full)에 도달해 병목 현상을 겪고 있을 수 있습니다. 인스턴스 단위의 세밀한 데이터 없이는 정확한 성능 분석과 의사결정이 어렵습니다. 복합 환경의 관리: 온프레미스 서버(SMS)와 쿠버네티스(K8s) 환경이 혼재된 경우, 각 환경에서 구동되는 GPU 인스턴스 현황을 통합해서 보기가 매우 어렵습니다. 3.기존 물리 GPU 모니터링 vs MIG 모니터링의 차이점 기존의 방식대로 GPU를 바라본다면 MIG 환경에서는 많은 정보를 놓치게 됩니다. 주요 차이점은 다음과 같습니다. ① 데이터의 입도(Granularity) - 기존: GPU 온도, 전체 사용률, 총 메모리 사용량 등 '물리 장치' 단위의 지표를 수집합니다. - MIG: 각 GPU Instance ID별로 할당된 프로필(예: 1g.5gb, 3g.20gb)과 해당 인스턴스의 실시간 연산량, 메모리 점유율을 개별적으로 추적해야 합니다. ② 자원 매핑의 복잡성 - 기존: 1 Host = N GPUs 구조로, 호스트와 장치 간의 연결 관계가 매우 단순합니다. - MIG: 물리 GPU 상단에 가상화된 계층이 존재하므로, "Physical GPU → GPU Instance → Compute Instance"로 이어지는 복잡한 계층 구조를 명확히 매핑하여 시각화해야 합니다. ③ 성능 병목 지점의 식별 - 기존: GPU 전체 사용률이 높으면 그래픽 카드 자체의 성능 한계로 판단합니다. - MIG: 전체 GPU 사용률은 낮아 보이더라도, 특정 인스턴스(MIG)에 할당된 자원이 풀(Full) 상태라면 해당 워크로드에서만 병목이 발생합니다. 이를 정확히 구분해내지 못하면 원인을 엉뚱한 곳에서 찾거나, 불필요한 인프라 증설 결정을 내리는 등 자원 낭비로 이어질 수 있습니다. 이처럼 MIG의 정확한 모니터링을 위해서는 물리적 장치와 개별 인스턴스를 아우르는 다차원적인 시각화와, 인스턴스 단위의 정밀한 데이터 추적 체계가 필요합니다. 4. Zenius를 통한 효과적인 GPU/MIG 모니터링 Zenius는 앞서 살펴본 모니터링 사각지대로 인한 가시성의 공백과 복합 환경의 관리 복잡성을 해결하기 위해, 온프레미스(SMS)와 쿠버네티스(K8s) 환경을 아우르는 통합 GPU 모니터링 대시보드 등을 통해 인프라 관리자의 운영 부담을 낮춰줍니다. 구체적인 Zenius의 강점은 세 가지로 정리할 수 있습니다. ① 물리 GPU와 MIG의 계층적 통합 관제 Zenius는 물리적 장치(Physical)와 하위 인스턴스(MIG)의 관계를 계층적으로 시각화하여 복잡한 자원 현황을 한눈에 파악할 수 있게 합니다. - 토탈 대시보드: 물리 GPU의 수량과 생성된 MIG 인스턴스 현황을 대시보드 상단에서 실시간으로 즉각 확인할 수 있습니다. - 유연한 그룹핑: 모델별, 서비스별 그룹핑은 물론 심각도 순 정렬 기능을 제공하여, 관리 대상이 수백 대에 달하더라도 우선순위에 따른 전략적 대응이 가능합니다. ② 정밀한 성능 추적과 Top-N 분석 단순한 장비의 '생존 여부' 확인을 넘어, GPU가 최적의 성능을 내고 있는지 '체력 상태'를 면밀히 체크합니다. - 핵심 지표 시각화: GPU 사용률(Utilization), 전력 소모량(Power Draw), SM Active 등 엔지니어에게 꼭 필요한 핵심 데이터를 직관적인 차트로 구성하여 제공합니다. - 인스턴스별 상태 파악: 개별 MIG 인스턴스의 점유율을 독립적으로 추적함으로써, 특정 워크로드에서 발생하는 성능 병목 지점을 즉시 식별하고 조치할 수 있습니다. ③ 지능형 감시 및 장애 대응 Zenius의 강력한 이벤트 엔진은 물리 GPU와 MIG 인스턴스에서 발생하는 미세한 이상 징후까지 놓치지 않고 감지합니다. - 성능 항목 감시 기능: 온도 임계치 초과나 인스턴스 수집 불량(미수집) 등 주요 성능 지표에 대해 세밀한 개별 감시 규칙을 설정할 수 있습니다. - 이벤트 내역 관리: 발생한 이벤트의 심각도와 인프라 정보를 유기적으로 연결하여, 장애 발생 시 원인 분석에 소요되는 시간을 획기적으로 단축합니다. Zenius는 복잡한 GPU 인프라의 가시성을 확보함으로써, 관리자가 실질적인 데이터에 기반해 자원을 효율적으로 배분하고 안정적으로 운영할 수 있도록 돕습니다. 5. 실전 활용 예시: Zenius로 실현하는 자원 최적화 1) 쿠버네티스(K8s) AI 워크로드 관리: K8s 클러스터 내에서 구동되는 각 파드(Pod)가 할당된 MIG 자원을 적절히 쓰고 있는지 확인할 수 있습니다. Zenius의 사용 현황 그래프를 보면 할당된 자원(Allocated)과 유휴 자원(Not Allocated)의 비율을 한눈에 알 수 있어, 효율적인 자원 재배치가 가능합니다. 2) 장애 선제 대응 및 가용성 확보: 대시보드 우측의 '이벤트 현황'과 '사용 현황' 차트를 결합하면, 특정 인스턴스가 비활성(Not Active) 상태로 변하거나 온도가 급증하는 신호를 감지하여 서비스 중단 전 선제적으로 대응할 수 있습니다. 아무리 뛰어난 자원이라도 운영자의 눈에 보이지 않으면 효율을 높이기 어렵습니다. Zenius는 복잡하게 얽힌 GPU 인프라를 누구나 이해하기 쉬운 직관적인 정보로 바꾸어, 관리자가 실무 현장에서 데이터에 기반한 최선의 판단을 내릴 수 있도록 지원하겠습니다.
2026.04.28
다음 슬라이드 보기