반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
스토리지 관리
예방 점검
APM Solution
애플리케이션 관리
URL 관리
브라우저 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
AI 인공지능
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
최신이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
브레인즈컴퍼니, 서비스 확대 및 고객 만족도 향상 위해 원주사무소 오픈
데브옵스(DevOps)에 대한 오해, 그리고 진실은?!
원종혁
2024.02.14
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
잘파세대(Z세대 + 알파 세대)에 대한 모든 것
2000년 대 후반 IT 분야에서 데브옵스(DevOps)라는 움직임이 시작된 후, 꾸준하게 관심이 이어지고 있습니다. 데브옵스와 관련된 전 세계 시장의 규모는 2023년 기준 약 15조 원으로 추산되며, 올해부터는 연평균 25.5%씩 성장하여 2032년에 118조 원에 이를 것으로 예상됩니다
(*출처: Grand View Research)
.
우리나라의 경우 네이버, 카카오, 우아한 형제들, 토스 등과 같은 국내 대기업부터 스타트업까지 데브옵스 팀을 구축하여 적극적으로 활용하고 있기도 한데요.
이처럼 많은 기업들이 말하는 데브옵스란 과연 무엇일까요? 그리고 어떻게 하면 데브옵스를 성공적으로 도입하고 활용할 수 있을까요?
│ 데브옵스(DevOps)란 무엇인가?
[그림 1] DevOps 개념 ⓒdevopedia
우선 데브옵스가 무엇인지부터 살펴봅시다. 검색 사이트에서 '데브옵스 혹은 DevOps'라고 검색하면 위 [그림1]과 같은 결과를 찾을 수 있는데요.
[그림 2] DevOps에 대한 필자의 첫인상
하지만 처음 데브옵스라는 단어를 접할 경우 [그림 2]처럼 오버랩되는 건, 필자만 그런 것은 아니라고 생각합니다. 위 그림처럼 "개발자 보러 운영까지 하라는 거야? 아니면 운영자에게 개발까지 하라는 거야?"라는 질문을 던질 수 있겠죠.
데브옵스(DevOps)는 소프트웨어의 개발(Developmnet)과 + 운영(Operations)의 합성어이다. 이는 소프트웨어 개발자와 정보기술 전문가 간의 소통, 협업 및 통합을 강조하는 개발 환경이나 문화를 말한다. 데브옵스는 소프트웨어 개발조직과 운영조직 간의 상호 의존적 대응이며, 조직이 소프트웨어 제품과 서비스를 빠른 시간에 개발 및 배포하는 것을 목적으로 한다.
ⓒ위키백과
위 내용에도 언급되었듯이, 데브옵스라는 것은 결국 단순한 기술이 아닌 환경 또는 사람들 간에 관계라고 할 수 있습니다. 그렇다면 데브옵스는 어떤 이유로 주목받을 수 있었을까요?
│ 데브옵스(DevOps)가 주목받게 된 배경은?
데브옵스가 주목받은 이유는 여러 가지 있을 수 있지만, 주요한 이유 중 몇 가지를 설명하면 다음과 같습니다.
클라우드 컴퓨팅 기술의 발전
IT 산업의 발전에 따라 빠른 개발과 빠른 배포, 그리고 고객의 요구에 신속하게 대응하는 능력이 중요해졌습니다. 특히
클라우드 컴퓨팅(Cloud Computing) 기술의 발전으로 데브옵스의 필요성이 더 대두
되었는데요.
클라우드 자원의 가상화 기술과 빠른 프로비저닝
*1
을 통해 기존의 개발과 운영 간의 경계가 허물어지며, 서로 간의 협력이 필수적으로 요구되었기 때문입니다. 실제로 데브옵스만으로는 52%, 클라우드 단독 사용으로는 53%의 성능 향상을 얻었지만, 데브옵스와 클라우드가 결합된 환경에서는 평균 81%의 성능을 향상시킬 수 있다는
조사 결과
도 있습니다.
*1 프로비저닝(Provisioning): 사용자가 요청한 IT 자원을 사용할 수 있는 상태로 준비하는 것
MSA의 등장
[그림 4] 모놀리식 구조 예시(왼) [그림 5] MSA 구조 예시(오)
지금까지 운영 중인 시스템 혹은 서비스는, 하나의 큰 덩어리로 구성된 [그림 4]
모놀리식(Monolithic) 구조를 많이 사용
하고 있습니다. 안정성을 확보하고 기능 추가를 편리하게 할 수 있었기 때문이죠. 하지만 한 부분의 변경이 전체 시스템에 영향을 미칠 수 있어, 유지보수가 어렵다는 한계점이 있습니다. 예를 든다면 특정 기능이 수정이 필요한 경우에도, 전체 시스템을 수정해야 해서 번거롭고 비효율적인 부분이 있습니다.
이러한 모놀리식 구조의 한계점으로 소프트웨어의 구조가 서서히 [그림 5]
MSA(Micro Service Architecture)로 변화
되고 있습니다. MSA는 통합된 하나의 덩어리를 관리하는 것이 아닌, 작은 단위로 쪼개어 관리하는 방식인데요. 관리하기도 효율적이고, 소프트웨어 품질개선과 요구사항 반영이 비교적 편리해졌습니다. 각 서비스가 독립적으로 배포되고 운영되기 때문에, 특정 기능을 수정할 때 전체 기능을 수정하거나 다시 배포할 필요가 없어진 거죠. 하지만 이러한 변화는 기존의 개발 환경과 조직 문화로 대응하기엔 어려움이 있었습니다.
이때
'데브옵스(DevOps)'
가 좋은 솔루션으로 등장한 것이죠!
데브옵스가 지속적인 통합(CI)
1
과 지속적인 배포(CD)
2
를 통해 빠른 개발 주기를 실현하고 배포할 수 있을 뿐만 아니라, 다수의 독립적인 서비스가 상호작용할 수 있도록 원활한 협업과 통합을 가능하게 했기 때문입니다.
*1 지속적인 통합(Continuous Integration, CI)
개발자가 코드를 변경할 때마다 자동으로 통합하고 빌드 하여, 소프트웨어의 품질을 빠르게 확인하는 과정
*2 지속적인 배포(Continuous Delivery, CD)
통합된 코드를 자동으로 테스트하고, 안정적으로 통과한 경우에는 자동으로 프로덕션 환경에 소프트웨어를 배포하는 것. 이에 따라 사용자에게 새로운 기능이나 수정 사항을 신속히 제공하는 과정
│ 데브옵스(DevOps) 도입 성공사례는?
이처럼 데브옵스의 정의와 주목받게 된 배경을 살펴봤는데요. 이번에는 데브옵스를 실제로 기업에 적용해 보고 성공한 사례를 자세히 살펴볼까요?
넷플릭스
넷플릭스(Netflix)는 데브옵스를 성공의 핵심요소로 삼아, 지속적으로 새로운 기능과 업데이트를 제공했습니다.
자동화된 유연한 인프라
로 사용자 경험을 향상시켰죠. 이를 통해 빠르게 변화하는 스트리밍 산업에서 앞서 나갈 수 있게 되었고, 많은 비즈니스 이점을 얻게 되었습니다. 사실 넷플릭스는 2008년 큰 장애를 겪은 후, 클라우드로 이전되면서 인프라를 혁신적으로 개편했습니다. 이로써 기존의 수직적 단일 장애 지점에서 벗어나, 수평적으로 확장 가능한 분산 시스템을 구축할 수 있었습니다.
아마존
아마존(Amazon)은 데브옵스 원칙을 초기에 채택하여, 개발과 운영팀 간의 협력을 강화했습니다.
자동화와 지속적인 통합을 강조
함에 따라, 빠른 배포 주기와 개선된 확장성을 달성할 수 있었죠. 이러한 아마존의 데브옵스 접근 방식은, 시장에서 경쟁 우위를 유지하는데 중요한 역할을 했습니다. 아마존 창립자인 제프 베이조스는 아마존의 데브옵스에 대해 '고객에게 집중하고, 혁신을 포용하며, 실험할 용기'를 강조했습니다. 베이조스는 혁신을 위해, 오해를 받고 비판받을 의향이 있어야 한다고 말했던 것이죠.
페이스북
페이스북(Facebook)은 "빠르게 움직이고 물건을 부수라"는 문화에 뿌리를 둔 데브옵스 관행을 택했습니다. 실험, 민첩성, 위험 감수를 중시하는 접근 방식을 포함해서 말이죠. 이처럼 페이스북은
지속적인 통합과 배포, 자동화된 테스팅, 모니터링
을 사용하여 사용자에게 더 빠르고 높은 품질의 새로운 기능과 업데이트를 제공하고 있습니다.
월마트
2011년부터 데브옵스를 도입한 월마트(Walmart)는
자동화와 협업 그리고 지속적인 배포
에 중점을 두었습니다. 애자일(Agile) 방법론과 클라우드 기반의 인프라 및 데브옵스 툴체인을 활용하여, 하루에 최대 100번까지 코드를 배포할 수 있게 된 것이죠. 이를 통해 디지털 변환을 가속화하고, 전자상거래 플랫폼을 개선하며, 고객 경험을 향상시킬 수 있었습니다.
위 기업들은 데브옵스라는 도구를 효과적으로 활용하여 비즈니스 성과를 창출하고, 경쟁 우위를 확보할 수 있었습니다. 그렇다면 데브옵스를 도입하기만 하면 무조건 성공할 수 있을까요?
│ 데브옵스(DevOps)의 오해와 한계
앞선 질문에 대한 대답은 아쉽게도 NO입니다. 데브옵스는 개발 환경과 문화를 전부 해결해 줄 수 있는 '만능책'은 아니라는 것이죠. 데브옵스가 도입된 이후 새로운 한계점이 발견되었고, 실패할 사례들도 적지 않게 나왔습니다.
이러한 결과는 아래와 같은 오해들에서 비롯될 확률이 높은데요. 대표적으로 3가지만 살펴봅시다.
[그림 6] DevOps 구현을 위한 도구 ⓒMedium_Ajesh Martin
오해 1. 데브옵스는 일종의 단순한 도구일 뿐이다?
데브옵스를 '일종의 도구'로만 보는 것은 잘못된 판단입니다. 물론 여러 팀에서 보다 더 나은 환경과 문화를 위해 슬랙(Slack), 젠킨즈(Jenkins), 도커(Docker) 등 여러 도구를 사용하는 것은 좋습니다.
하지만 데브옵스는 이보다 더 광범위한 접근 방식을 담고 있습니다. 즉 개발과 운영팀 간의 협력과 더 빠른 소프트웨어 개발과 배포를 가능하게 하는 방법론을 포함한다는 것이죠. 다시 말해 데브옵스라는 '도구'를 이용하기 이전에, 문화적 그리고 기술적 접근 방식이 바탕이 되어야 데브옵스라는 툴이 도움 될 수 있습니다.
오해 2. 데브옵스는 모든 조직에 적합하다?
만약 '다른 회사에 데브옵스라는 팀이 있으니, 우리도 데브옵스 팀을 만들자'라는 식으로 접근한다면, [그림 2]와 같은 모습이 될 것으로 예상됩니다. 즉 데브옵스의 조직 체계를 구성한다고 해서 데브옵스가 실현될 순 없습니다. 서로 다른 입장과 상황이 있는 개발자-팀-회사, 운영자-팀-회사 간에 상당한 노력을 통해 만들어 내는 것이 더 중요한 것이죠.
이와 비슷한 사례로 애자일(Agile) 문화가 있습니다. 2000년대 초반 '애자일 소프트웨어 선언문'으로 다양한 애자일 방법론이 주목을 받았었죠. 개발에서 빠르고 유연한 방법을 강조하며, 이후 많은 기업들이 애자일 방법론을 도입하게 되며 유행처럼 번져갔습니다.
[그림 7] Agile 프로세스
여기서 애자일 문화를 도입한 많은 기업들이 간과했던 사실은, 애자일 문화 도입 자체가 '해결책'이라고 생각했다는 점입니다. 이보다 기존의 조직 문화에서 애자일 문화를 도입하는 것이 적합한 상황인지, 기존의 프로세스보다 효과를 발휘할 수 있는지, 팀 구성원들이 충분히 적응할 수 있는 문화인지 등을 우선적으로 고려하는 것이 더 중요합니다.
데브옵스 역시 마찬가지로 기존의 조직 규모, 문화, 프로젝트의 특성에 대한 명확한 이해가 먼저 선행되어야 합니다. 데브옵스 도입 전에 조직의 현재 상황과 목표를 면밀히 평가한 후, 점진적으로 도입하는 것이 중요하죠. 대기업이나 캐시카우가 있는 기업들이 데브옵스를 실행했다고 해서, 또는 단지 트렌드라는 이유만으로 도입하는 것은 위험할 수 있습니다.
오해 3. 데브옵스는 빠른 소프트웨어 배포만을 목표로 한다?
데브옵스는 속도만 중시하고 품질이나 안정성을 소홀히 한다는 인식이 있습니다. 하지만 데브옵스는 소프트웨어의 빠른 배포뿐만 아니라, 품질과 안정성 그리고 보안을 동시에 추구해야 합니다. 이에 따라 지속적인 통합과 배포(CI/CD), 자동화된 테스트, 모니터링 등을 통해 이러한 목표를 달성하려고 노력해야 하죠.
이처럼 데브옵스라는 도구를 도입하고 데브옵스 팀을 구성했다고 해서, 데브옵스가 즉각적으로 실현되는 것은 아닙니다.
│ 데브옵스(DevOps) 보다 선행되어야 하는 '이것'
진정한 데브옵스를 실현하기 위한 방법을 한 문장으로 표현한다면 다음과 같습니다.
"싸우지 말고 함께
소프트웨어 시스템 혹은 서비스를 만들어봐요"
힘 빠지는 결론일 수도 있습니다. 하지만 데브옵스를 도입하기 이전에 더 선행되어야 할 것은 각각 다른 업무의 조직원들끼리 서로를 이해하고, 협력하며, 보다 안정적인 시스템과 서비스를 제공하는 '문화'를 만드는 것이 더 현실적인 행동이라고 생각합니다.
물론 데브(Dev)와 옵스(Ops)는 우선순위가 동일하지 않고, 동일한 언어를 사용하지 않을 수 있으며, 매우 다른 관점에서 문제 해결될 가능성이 높습니다. 이처럼 팀을 하나로 모으기 위해서는 상당한 시간과 지속적인 노력이 필요한 것이죠.
그렇다면 어떤 방식으로 팀 협업 문화를 만들어야, 데브옵스를 보다 성공적으로 도입할 수 있을까요?
│ 데브옵스(DevOps) 성공을 위한 첫걸음
먼저 조직 내의 문화를 이해한 다음, 조직 내 교육과 커뮤니케이션을 강화하는 것이 중요한데요. 구체적인 방안을 제안한다면 다음과 같습니다.
로테이션 프로그램 도입
진정한 데브옵스를 실현하려면, 무엇보다 각 부서의 업무적인 이해가 중요합니다. 가장 직관적인 방법으로는 다른 부서의 업무를 '직접 체험'해 보는 것입니다. 예를 든다면 개발자가 운영팀의 업무를 수행하거나, 보안 팀이 개발 업무에 참여하는 등, 다양한 부서 간의 경험을 쌓아 보는 것이죠. 이를 통해 서로의 업무 환경과 각 부서 간의 역할을 이해하는 데 큰 도움을 받을 수 있습니다.
지식 공유 플랫폼 구축
내부 플랫폼이나 문서화된 지식 공유 시스템을 구축하는 방법도 있습니다. 각 부서의 업무와 프로세스에 대한 정보를 쉽게 접근할 수 있도록 하는 것이죠. 예를 들면 데브옵스 문화나 기술적인 도구, 프로세스 등을 포함하여 다양한 지식을 공유합니다. 이를 통해 각 부서의 업무 특성을 명확히 이해할 수 있고, 협업을 원활하게 진행할 수 있겠죠.
정기적인 교육 세션
빠르게 변화하는 기술에 대응하기 위해, 팀원들이 지속적으로 학습하고 발전해야 합니다. 정기적인 교육은 이러한 학습을 지원하는 데 중요한 역할을 하는데요. 예를 든다면 새로 도입된 CI/CD 도구에 대한 워크숍을 개최하여, 팀원들이 해당 도구의 사용법과 이점을 학습할 수 있도록 합니다. 또한 현재 사용 중인 프로세스 개선점에 대한 세션을 주기적으로 열어, 팀원들이 학습한 내용을 바탕으로 업무에 효율적으로 적용할 수 있습니다. 만약 특정 분야에 강점을 가진 팀원이 있어 주기적으로 자신의 경험과 성과를 공유한다면, 팀 전체에게 영감을 주고 학습 기회를 제공할 수도 있겠죠.
스탠드 업 미팅 활성화
매일 정해진 시간에 각 팀원이 자신의 진행 상황이나 이슈, 계획을 간결하게 공유합니다. 정해진 시간을 지키고 효율적인 미팅 진행을 위해, 공유하는 팀원들의 말에 집중하되 '총 15분'을 초과하지 않도록 노력하는 것이 중요합니다. 이를 통해 짧은 시간 동안 팀 전체가 빠르게 현재 상황을 파악하고, 실시간으로 정보를 공유하며, 신속하게 문제를 해결할 수 있습니다.
이처럼 위와 같은 방법들을 통해 구성원들이 효과적으로 협력할 수 있는 환경을 조성하는 노력들이 필요합니다.
。。。。。。。。。。。。
많은 기업들이 경쟁에서 지지 않기 위해 도입하고 있는 데브옵스(DevOps).
하지만 진정한 데브옵스를 실현하기 위해서는
"싸우지 말고 소프트웨어 시스템 혹은 서비스를 만들어 봐요"
라는 문장처럼 각각 다른 업무의 조직원들끼리 서로 이해하고, 협력하는 문화가 선행되는 것이 매우 중요합니다.
즉 너희 팀 vs 우리 팀 업무를 구분하지 않고 함께 협력하여, 아이디어를 생산하고, 가치를 창출해야 하는 것이죠. 혹시 아직 데브옵스를 도입하기 전이거나, 도입 이후에 올바르게 활용되고 있는지 궁금하시다면, 오늘 이 글을 통해 심도 있게 생각해 보시는 건 어떨까요?
#데브옵스
#DevOps
#MSA
#클라우드컴퓨팅
원종혁
솔루션사업팀
최일선에서 일하는 솔루션사업팀에서 근무 중입니다.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
무선 AP에 대해서 꼭 알아야 할 세 가지
무선 AP에 대해서 꼭 알아야 할 세 가지
지난 시간에는 무선 AP를 '어떻게' 하면 효과적으로 관리할 수 있는지에 대한 TIP을 알려 드렸었는데요(링크). 여기서 잠깐, 무선 AP란? '무선 AP'는 Access Point의 약자로 Wireless Access Point 라고 하며, WAP으로 불리기도 합니다. 실제 인터넷으로 연결되는 신호는, 무선 신호를 받아서 유선 신호 체계로 전달해 주는 매개체가 필요한데요. 이를 AP가 담당합니다. 이름 그대로 Access Point로서 유선 신호를 무선으로 바꿔주거나, 무선 신호를 유선으로 바꾸는 접촉 지점의 역할을 하죠. 이번 시간에는 구성요소, 주요 활용사례, 관리 시스템 등 AP와 관련해서 꼭 알아야 할 세 가지를 살펴볼 예정입니다. 우선 그전에 무선 AP가 최근에 '왜' 필요해졌는지부터 짚어보겠습니다. │무선 AP의 필요성 무선 AP는 일반적인 유선 공유기보다, 설치 장소에 구애받지 않는다는 점에서 차별점을 가지고 있습니다. 무선 안테나가 AP에 자체적으로 내장되어 있고 PoE 기능을 통해 일반적인 가정에서 사용하는 유선 공유기보다 자유롭게 설치될 수 있죠. 이외에도 AP는 아래와 같은 특장점으로 각광받고 있습니다. 가용성 무선 AP는 일반적인 유무선 공유기보다 무선으로 연결된 기기를 더 많이 수용할 수 있는데요. 대규모 인원을 수용해야 하는 기업/공공 지자체/백화점/카페 등 대규모 클라이언트가 필요한 장소의 원활한 네트워크 연결을 용이하게 한다는 점에서 가용성이 뛰어납니다. 관리적 측면 무선 AP는 자신을 포함하여 대역을 무선으로 연결해 주는 기능이 기본적인 역할입니다. 하지만 부가적으로 무선관리 시스템으로부터 중앙 컨트롤을 받으며, 클라이언트의 통신 상태를 체크하는 기능을 가지고 있는데요. 사용자 확인부터 트래픽 양, 웹 접속 권한 설정과 알람까지 폭넓은 관리 기능을 제공하고 있습니다. 대규모 클라이언트 지원 일반적인 가정이 아닌 학교/기업/공공장소와 같은 대규모 클라이언트에 동시 접속을 하기 위해선, 대규모 접속을 처리할 수 있는 무선 AP가 필요합니다. 일반적인 공유기의 경우 약 한정된 IP만 할당받을 수 있으며, 인원이 많아질수록 속도 저하나 부하가 발생하기 때문이죠. 반면 무선 AP는 이러한 대규모 환경에서 접속을 효과적으로 처리할 수 있습니다. 편리성 무선 AP는 *SSID(Service Set Identifier)1가 하나로 통합되어, 접속 환경이 달라지더라도 무선 신호를 다시 잡을 필요가 없습니다. 반면 가정용 공유기의 경우 SSID가 별도로 분리되어 있어, 무선 신호 연결을 할 때마다 별도의 인증 절차를 거치게 되죠. 물론 공유기도 AP 모드로 SSID를 통합하여 사용할 수 있지만, 이는 네트워크 속도의 저하를 일으킬 수 있습니다. *SSID1: Wifi 공유기 검색할 때 나오는 명칭 이름(ex. SK_WifiXXXX) │무선 AP를 활용한 주요 사례 무선 AP는 앞에서도 언급했지만 대규모 환경에 적합하여, 다양한 분야에서 지속적으로 확대되고 있는데요. 몇 가지 대표적인 사례를 통해 좀 더 살펴보겠습니다. 디지털 뉴딜 정책 : 공공 와이파이 전환 사업 한국지능정보진흥원(NIA)에서는 2023년에 전국의 공공장소에 무선 인터넷 인프라를 대폭 확장하는 사업을 진행했습니다. 이 계획에 따라 그 해에만 4,400개의 새로운 공공장소에 공공 와이파이가 설치되어, 전체적으로 5.8만 개의 공공장소에서 공공 와이파이를 이용할 수 있게 되었습니다. 당진시 공공 와이파이 존 구축 당진시는 2018년까지 꾸준히 인구가 증가한 도시 중 하나입니다. 이러한 변화에 맞춰 교통과 물류의 인프라가 획기적으로 개선되었습니다. 더불어 당진시는 공공 와이파이 수요 증가에 대응하기 위해, Cisco AP 제품을 사용하여 시내 주요 지점에 공공 와이파이존을 확대하는 사업을 추진했습니다. 이 밖에도 국내 여러 도시에서는 스마트 시티 구축을 목표로, 도시 곳곳에 무선 AP를 설치하여 시민들이 어디서나 인터넷에 쉽게 접속할 수 있는 환경을 조성하고 있습니다. 대형 쇼핑몰, 카페 체인점(ex. 스타벅스), 호텔 등 상업 시설에서도 고객 경험 개선을 위해 무선 AP를 활용한 와이파이 서비스를 제공하고 있죠. 그렇다면 네트워크 환경에서 AP가 잘 관리될 수 있도록, 필수적으로 확인해야 하는 구성 요소는 무엇일까요? │무선 AP의 네트워크 환경 구성 요소 [그림] 무선 AP의 네트워크 환경 구성 요소 무선 AP를 구축하고 잘 관리하기 위해서는 AP 컨트롤러, LWAPP 프로토콜, PoE, UI 구성 요소들이 필요한데요. 각각 구성 요소들이 어떤 역할을 하는지 파악해 보겠습니다. AP 컨트롤러 AP 컨트롤러(WLC, Wireless Lan Controller)는 다량의 AP를 관리합니다. AP의 작동 상태를 실시간으로 모니터링하며, 접속 상태 확인과 AP 설정하는 역할을 담당하죠. 또한 로드밸런싱(대역폭 분산)과 함께 일부 AP 장애 시 주변 AP를 통한 장애 감지 기능, 플랫폼을 통한 클라이언트 접속 상태에 대한 실시간 모니터링 기능을 제공합니다. LWAPP 프로토콜 이때 AP 컨트롤러와 무선 AP 간의 통신을 위한 프로토콜인 LWAPP(Lightweight Access Point Protocol)가 필요한데요. LWAPP 프로토콜을 통해 각 AP는 컨트롤러로부터 자동으로 구성되고, 보안 업데이트를 받으며, 사용자 접속을 관리할 수 있기 때문이죠. 예를 들어 LWAPP 프로토콜 덕분에 쇼핑몰 방문객들은 어디서나 끊김 없는 와이파이 접속을 경험할 수 있으며, 운영자는 효율적으로 네트워크를 관리할 수 있습니다. PoE PoE(Power of Ethernet)는 무선 AP에 붙어 있는 이더넷 전원 장치로, 인터넷 케이블 하나에 데이터와 전원을 동시에 보내는 기술입니다. PoE를 이용하여 전원 코드를 따로 꽂을 필요가 없어, 설치가 간편하죠. 또한 별도의 어댑터 연결 없이 PoE 전송이 가능한 WAN 케이블 연결만 하면, 네트워크 기능과 전원 기능을 모두 구현할 수 있습니다. 이를 통해 AP의 벽면이나 천장에 설치가 가능합니다. UI AP 컨트롤러와 연계된 UI(UserInterface)로 AP 관리가 가능하며, AP에 연결된 클라이언트까지 확인할 수 있습니다. UI 화면을 통해 어느 정도의 트래픽을 사용했는지 확인할 수 있으며, AP의 이름(SSID)과 암호를 지정할 수 있습니다. 또한 AP에 연결된 클라이언트의 외/내부 관리가 가능합니다. Cisco Meraki와 Ruckus의 경우, AP 컨트롤러와 AP를 웹 화면으로 관리할 수 있는 UI 환경을 제공하는데요. 다음 사례를 통해 좀 더 자세히 살펴보겠습니다. │무선 AP와 컨트롤러 관리 시스템 앞에서 살펴본 것처럼 대규모의 무선 AP와 컨트롤러를 관리하기 위해서는 UI 환경, 즉 '모니터링'이 필수적인데요. 무선 AP와 컨트롤러를 모니터링할 수 있는 대표적인 사례를 살펴본다면 다음과 같습니다. Cisco Meraki [그림] Cisco Meraki 주요 장비 Cisco Meraki는 Cisco의 주요 AP, WAN, 스위치, 제품에 대한 모니터링이 가능합니다. Cisco 자체의 대시보드를 통해 장비와 현황 헬스 체크가 가능하며, 클라이언트의 실시간 사용속도와 AP에 연결된 클라이언트 리스트 역시 확인할 수 있죠. 또한 구글맵을 연동하여 주요 네트워크 장비의 위치 기반 모니터링이 가능합니다. Ruckus Networks Ruckus는 자사 네트워크 장비인 스위치, AP, AP 컨트롤러와 클라우드 관리 시스템을 제공하는 AP 전문 기업입니다. 컨트롤러와 연계된 웹 UI로 네트워크 상태를 원격으로 파악할 수 있죠. 또한 Ruckus의 대시 보드를 통해 주요 장비의 네트워크의 지리적 위치와 AP, 그리고 클라이언트 모니터링이 가능합니다. WNMS AP 벤더가 제공하는 AP 컨트롤러 관리 솔루션 외에도 WNMS(Wireless Network Monitoring System)를 통한 이기종 AP 관리가 가능합니다. 대규모 엔터프라이즈 환경에서는 다양한 이기종의 AP를 사용하는 경우가 많은데요. 이러한 환경에서 WNMS는 트래픽과 클라이언트 사용량을 확인할 수 있을 뿐만 아니라, 다양한 종류의 AP를 함께 관리할 수 있습니다. 이처럼 다양한 제조사의 AP를 하나의 시스템에서 통합적으로 관리할 수 있기 때문에, 대규모 환경에서 네트워크 관리를 효율적으로 운영할 수 있겠죠. [그림] Zenius-WNMS 모니터링 뷰 Zenius-WNMS 모니터링 화면을 보며 좀 더 자세히 살펴볼게요. Cisco와 Ruckus는 자사의 AP 무선 장비만 모니터링할 수 있는 솔루션인 반면, Zenius-WNMS는 AP 장비의 전체 운영 상황과 세부정보들을 모니터링할 수 있습니다. 컨트롤러, AP 장비 운영 상태, 벤더명, 주요 모델 및 트래픽 현황, 접속된 클라이언트 수 등 또한 확인이 가능합니다. [그림] Zenius-WNMS로 보는 무선 AP 트래픽 현황 이뿐만 아니라 Zenius-WNMS는 현재 운영중인 AP의 2.4GHz 대역, 5GH 대역에서의 트래픽 현황과 연결된 클라이언트 이벤트 현황도 모니터링할 수 있습니다. 다양한 감시 항목 설정을 통해, 주요 AP와 관련된 장애 이벤트와 운영 항목에 대한 모니터링도 가능합니다. 이를 통해 네트워크 관리자는 복잡한 네트워크 환경에서 발생할 수 있는 다양한 문제를 빠르게 대응할 수 있고, 네트워크의 성능 저하를 일으킬 수 있는 요소를 즉각적으로 식별하고 조치할 수 있죠. [그림] **대학교 종합상황판 Zenius-WNMS의 대표적인 사례로 **대학교를 들어볼 수 있는데요. 3,000여 개 이상의 대량 무선 AP를 관리하기 위해 통합 대시보드 UI 환경을 구축하였습니다. 이처럼 대규모 환경에서도 Zenius-WNMS는 효과적으로 무선 네트워크를 관리할 수 있습니다. 무선 AP와 이를 구성하는 요소들을 관리하는 체계적인 모니터링 시스템은, 이제 현대 사회에서 필수적으로 자리 잡았습니다. Zenius-WNMS을 활용하여 무선 AP를 하나의 시스템에서 통합적으로 관리하고, 대량의 무선 AP를 효율적으로 관리해 보세요!
2024.05.21
APM의 핵심요소와 주요기능은?!
APM의 핵심요소와 주요기능은?!
지난 글을 통해서 APM의 필요성과 '트랜잭션' 현황 파악의 중요성에 대해서 알아봤습니다. 이번 시간에는 트랜잭션을 어떤 방식으로 추적하는지 APM 동작 과정을 통해 살펴보고, APM 시스템을 최적화하는 핵심 요소와 기능은 무엇인지 자세히 알아보겠습니다. │APM 동작 과정 APM은 Client-Web Application-DBMS와 같은 구성요소 사이에 트랜잭션1을 추적할 수 있어야 합니다. 이를 통해 웹 서비스 전반적인 성능을 모니터링하고, 문제가 발생했을 때 원인을 신속하게 진단할 수 있기 때문인데요. 그렇다면 각 단계별로 APM가 어떻게 트랜잭션1을 추적하는지 좀 더 자세히 살펴보겠습니다. *트랜잭션1: 쉽게 말해 데이터베이스에 실행되는 작업 단위를 의미합니다. 트랜잭션은 작은 여러 작업들을 하나의 그룹으로 묶어 처리하기 때문에, A라는 작업에서 일부가 성공했다고 하더라도 하나의 트랜잭션 처리가 비정상적으로 종료되면 모두 실패한 것이죠. 클라이언트(Client) 웹 서비스 사용자가 이용하는 디바이스 또는 브라우저입니다. 클라이언트에서 발생하는 요청과 응답을 추적하여 페이지 로딩 시간, 사용자 활동, 에러 발생 등을 파악할 수 있습니다. 이 정보들을 통해 사용자 경험을 분석하고 개선하는데 기초 자료로 사용되죠. 웹서버(Web Server) 클라이언트 요청을 받아, 적절한 답을 생성하여 보내는 서버입니다. 이 단계에서 APM은 서버(예: Apache, Nginx) 로그와 성능 지표를 분석하여 요청 처리 시간, 데이터 전송량, 서버 오류 등 정보를 모니터링하고 기록합니다. 웹 애플리케이션 서버(WAS) WAS는 Web Application Server의 약자로, 애플리케이션에서 사용하는 데이터를 저장하고 관리하는 시스템입니다. 이 단계에서 APM은 데이터베이스 성능을 모니터링하여 DB 쿼리 실행시간과 DB 서버 부하 등을 측정하고, 성능 문제를 파악하는 데 도움을 줍니다. WAS 종류로는 WebLogic, Websphere, JEUS, Tomcat 등이 있습니다. 데이터베이스(DBMS) DBMS(Database Management System)는 기업에서 발생하는 모든 데이터를 저장하고 관리하는 소프트웨어입니다. 이 단계에서는 DB 성능 관리 솔루션을 통해, 애플리케이션 개발자가 작성한 SQL 튜닝과 DBMS 소프트웨어 병목 현상 등을 모니터링할 수 있습니다. 특히 데이터베이스는 IT 인프라에서 필수 요소입니다. 기업 서비스 대부분이 데이터베이스에 접근하여, 데이터를 조회하고 수정해야 하기 때문에 DB 관리는 매우 중요하다 할 수 있죠. 이처럼 APM은 Client-Web Server-Was-DB 각 구성요소 사이에 있는 트랜잭션을 추적하여 웹 서비스 성능을 평가할 수 있습니다. 그다음으로는 APM 시스템 전체적인 성능을 평가하고 최적화하는 핵심 요소는 무엇인지 살펴보겠습니다. │APM 성능을 최적화하는 핵심요소 APM 시스템은 크게 5가지 요소를 통해, 전체적인 성능을 최적화할 수 있습니다. 우선 Resource는 시스템 성능과 안정성을 평가하는데 중요한 역할을 하며, DataBase는 SQL 쿼리의 실행 계획이나 DB 연결 상태와 같은 세부 정보를 분석하여 데이터베이스 성능을 최적화합니다. Alert는 모니터링된 데이터에서 문제를 식별하고 사용자나 운영자에게 경고를 보내며, User 경험과 행동을 추적하여 서비스 품질을 평가합니다. WAS는 서버 내부에서 발생하는 이벤트를 모니터링하고, 서버 성능을 평가하는 역할을 합니다. Resource-Database-Alert-User-WAS 이 5가지 요소는 APM 아키텍처를 구성하는 핵심 요소이기도 한데요. 다음 내용을 통해 APM 아키텍처를 좀 더 자세히 살펴보겠습니다. │APM 아키텍처 APM 아키텍처는 Agent를 통해 WAS(관리대상) 실시간 데이터를 수집하고 → Manager에서 데이터를 수집/분석/가공 한 뒤 → 다양한 UI로 시각화합니다. 특히 꼭 기억해야 할 APM 아키텍처 핵심 3가지는 에이전트, 데이터베이스, 통신방식인데요. 좀 더 자세히 알아보겠습니다. 에이전트 APM 관리대상(예시: WebSphere, WebLogic, JBoss, JEUS, Tomcat 등)에 Agent라고 불리는 소프트웨어를 설치합니다. 그다음 모니터링 대상 시스템(WAS)에서 데이터를 수집하죠. 에이전트는 애플리케이션 내부 동작을 모니터링하고, 성능 데이터를 수집하는 역할을 합니다. 이러한 데이터를 활용하여 에이전트는 서비스 구간별 현황과 초당 처리 건수, 서비스 응답시간, 동시 접속자 수, 트랜잭션 거래량, 에러 등 상세한 지표를 제공해 주죠. 데이터베이스 수집된 데이터를 보관하고 분석하기 위해서는, 데이터베이스(DataBase)를 사용합니다. 이 데이터베이스는 대규모 데이터를 저장하고 관리하는 구조여야 하며, 분석하고 보고서를 생성하는데 필요한 데이터를 효율적으로 쿼리 할 수 있어야 합니다. 통신방식 APM 시스템은 보통 다양한 통신 프로토콜(Communication Protocol)을 사용하여, 데이터를 수집하고 전송합니다. 예를 들어 웹 소켓(WebSocket)을 통해 실시간 데이터를 전송하거나 http(s)를 사용하여 주기적으로 데이터를 전송하는 방식이 일반적입니다. 그다음으로는 APM은 어떤 주요 기능을 제공하는지 알아보도록 하겠습니다. │APM 주요기능 APM은 대표적으로 웹사이트와 소프트웨어 애플리케이션 및 서비스에서, 성능을 모니터링하고 분석하는 기능이 있는데요. 좀 더 자세한 APM 기능을 살펴보겠습니다. 실시간 성능 통합 모니터링 [그림] Zenius-APM 토폴로지 맵 APM은 Tomcat, Jboss, WebLogic, JEUS 등 다양한 애플리케이션 서버(WAS) 환경에서 실행되는 애플리케이션 통합 모니터링을 제공합니다. 시스템 간의 처리 성능과 현황 정보는 토폴로지 뷰를 통해 시각적으로 파악할 수 있죠. [그림] Zenius-APM 모니터링 상황판 또한 각 서버의 트랜잭션 처리량, 처리 속도, 자원 사용량을 실시간으로 분석하여 시스템 성능을 관리합니다. 특정 트랜잭션 실행 경로를 추적하고 분석하여, 성능 병목 현상도 식별할 수 있습니다. [그림] Zenius-APM 모니터링 서비스 응답분포 APM은 서비스 응답 분포도를 제공하여, 비정상적인 트랜잭션을 집중적으로 조회하고 분석할 수 있습니다. 장애관리 APM은 메모리 누수, 서비스 응답 지연과 같은 장애 원인을 실시간으로 추적하고 분석하는 기능을 제공합니다. Rawdata를 기반으로 장애 발생 시점을 재현하여, 문제의 근본 원인을 파악하는 데 도움을 주죠. 또한 자동 이벤트 처리는 장애 관리 규칙(Rule)에 따라 이루어지며, 문제 발생 시에는 사용자에게 즉각적인 알림을 제공합니다. 성능 분석과 통계 APM은 애플리케이션 성능을 다양한 지표(예: 성능비교, 기간비교, 증설 필요성, 시간대별 등)를 통해 분석하고, 여러 파일 형식의 보고서로 제공합니다. 또한 애플리케이션 성능 문제와 SQL 쿼리 간의 연관성을 분석하여 성능 개선 방안을 제안합니다. 다양한 환경 지원 레거시 시스템에서 클라우드 인프라에 이르기까지, APM은 다양한 IT 환경을 효과적으로 지원합니다. 또한 WAS 중심 성능 관리와 MSA(마이크로 서비스 아키텍처) 환경 모니터링을 가능하게 하는 기술을 제공하죠. 이번 시간에 알아본 내용처럼 APM은 다양한 애플리케이션 서버(WAS) 환경에서 실행되며, 트랜잭션 성능을 관리하는 통합 모니터링 제품입니다. Zenius-APM와 같이 다양한 WAS 환경에서의 통합 모니터링과 트랜잭션 처리 현황을 체계적으로 파악할 수 있는 APM을 통해, 효과적으로 웹 애플리케이션을 관리해 보세요!
2024.07.19
옵저버빌리티(Observability) vs APM, 우리 기업에 맞는 솔루션은?!
옵저버빌리티(Observability) vs APM, 우리 기업에 맞는 솔루션은?!
지난 글을 통해 웹 애플리케이션을 전반적으로 모니터링하고 관리하기 위한 좋은 도구인, APM의 핵심요소와 기능에 대해서 알아봤습니다(지난 글 보기). APM은 분명 좋은 도구이지만 문제 원인이 애플리케이션, 웹, WAS, DB가 아닌 특정한 시스템 오류이거나 클라우드 네이티브 환경에서의 장애일 경우 문제 발생 원인을 명확히 밝히기 어려울 수 있습니다. 따라서 이번 시간에는 APM의 한계성은 무엇이고, 이를 보완하기 위한 방법은 무엇인지 자세히 살펴보겠습니다. │APM 한계성 불과 얼마 전까지만 해도 예상치 못한 장애를 탐지하고 분석하는 것은, 기존 APM만으로 충분했었습니다. 기존에는 모놀리식 구조로 되어있어 애플리케이션이 적은 수로 구성되어 있었고, Web-WAS-DB가 모두 단일 구조로 구성되어 있었기 때문입니다. 하지만 현재 대다수 기업들은 MSA 환경에서 서비스를 구축하고, DevOps 구조로 업무를 진행하는 경우가 많습니다. 즉 클라우드 네이티브 환경에서는 기존 모놀리식 구조의 APM의 한계가 하나둘씩 보이기 시작한 것이죠. 이러한 이유로 클라우드 네이티브 방식에는 서비스 장애 원인을 분석하기 위한 새로운 모니터링 툴이 필요했습니다. 이때 등장하는 것이 바로 옵저버빌리티(Observability)입니다. │Observability란? 그렇다면 Observability란 무엇일까요? 옵저버빌리티는 IT 인프라에 대한 근본적인 장애 원인을 분석하기 위한 방법론입니다. 관찰 가능성이라고 표현되기도 하죠. Obsevability는 비교적 최근에 사용한 용어이지만, 옵저버빌리티를 위한 고민은 오래전부터 지속되어왔습니다. 시스템이 내가 의도한 대로 작동하고 있을까? 예상치 못한 장애 탐지와 장애 근본 원인은 어떻게 분석할 수 있을까? IT 인프라 운영 환경에 문제가 발생했을 때, 문제 식별을 위해 필요한 객관적인 지표는 어떻게 도출할 수 있을까? 하지만 소프트웨어 애플리케이션에서 Observability는, 위와 같은 고민이 발생하거나 겪어보지 못했던 현상이 생길 때 이를 이해하고 설명할 수 있는 지표를 분석해 줍니다. │Obsevability의 등장배경 및 필요성 앞에서 옵저버빌리티가 무엇인지 살펴봤는데요. 이어서 Observability가 등장하게 된 이유와 필요성에 대해 자세히 살펴보겠습니다. MSA 전환에 따른 복잡성 증가 옵저버빌리티가 등장하게 된 첫 번째 이유는, 모놀리식 아키텍처에서 MSA 환경으로 전환함에 따라 복잡성이 증가했기 때문입니다. 우선 그림을 통해 자세히 살펴보겠습니다. [그림(왼)]은 모놀리식 아키텍처를 나타내는데요. 애플리케이션의 모든 구성 요소가 하나의 인프라로 통합되어 있는 형태입니다. 배포가 간단하며, 확장성이 쉽고, E2E 테스트가 용이하다는 장점이 있습니다. 하지만 조그마한 수정 사항이 있으면, 다시 구성 환경을 빌드하고 배포해야 한다는 단점이 있습니다. 또한 일부 오류가 전체 아키텍처에 영향을 미친다는 치명적인 단점도 존재하죠. 반면 [그림(오)]에 해당하는 MSA(Micro Service Architecture)는 하나의 큰 애플리케이션을 여러 개의 작은 애플리케이션으로 쪼개어, 변경과 조합이 가능합니다. 작은 서비스의 독립적 배포라는 강력한 장점을 앞세워 Netflix, PAYCO와 같은 다양한 기업들이 앞다투어 MSA를 받아들였습니다. 여기서 문제는 MSA로 변화함에 따라 통합 테스트나 E2E 테스트 검증이 필요해졌는데요. 이처럼 여러 서비스의 API를 검증해야 하므로, 복잡성이 증가하고 많은 시간과 비용이 소모되었습니다. 무엇보다 각 서비스 별로 자체적인 데이터베이스가 있어, 트랜잭션에 대한 파악이 어려워지기도 했죠. 따라서 기존 APM이 담당하는 트랜잭션 모니터링의 복잡성은 더욱 증가했고, Observability의 필요성이 대두되었습니다. DevOps와 클라우드 네이티브 환경으로서의 전환 옵저버빌리티가 등장하게 된 두 번째 이유는, DevOps와 클라우드 네이티브 환경으로 전환하기 위해 필요한 도구이기 때문입니다. DevOps의 핵심은 소프트웨어의 개발(Deployment)과 운영(Operation)을 분리하는 것이 아닌, 하나로 통합된 업무 처리 방식으로 진행됩니다. 이때 관리하는 서비스 전반에 대한 가시성이 충분히 확보되지 않으면, DevOps 조직은 근본적인 원인을 찾는 데 어려움을 겪게 됩니다. 이러한 어려움을 해결하기 위해서는 서비스를 구성하는 아키텍처부터 트랜잭션까지 가시성이 확보되어야 합니다. 이를 통해 DevOps의 목표인 지속적인 개발과 운영의 통합을 만들어낼 수 있죠. 또한 Observability는 클라우드 네이티브 환경으로 전환하기 위한 필수 조건입니다. 기업에서 운영 중인 서비스/IT 인프라가 클라우드 네이티브 환경으로 전환되면서, 이전에 발생하지 않았던 모든 장애 가능성에 대한 인지를 위해 Observability가 선행되어야 합니다. │Observability와 Monitoring 차이점 그렇다면 기존의 모니터링(Monitoring)과 옵저버벌리티(Observability)의 차이점은 무엇일까요? 기존의 모니터링 역할은 IT 인프라의 '정상 작동 확인'을 위한 도구 역할에 초점이 맞춰져 있었습니다. 모니터링 구성 요소인 대시보드와 사용자 알람을 통해 가시성을 확보하고, 장애를 쉽게 감지할 수 있었죠. 즉 모니터링은 인프라 성능 지표, 구성 관리, 사용자 알람에 주 목적을 둔 IT 운영 담당자에 포커스를 맞춘 도구입니다. Observability는 기존 모니터링이 맡는 알람(Alerting), 메트릭(Metric) 외에도 로그(시스템, 애플리케이션), 트레이스, 디버깅과 같은 작업이 가능합니다. 이를 통해 앞으로 발생할 수 있는 장애를 미리 예측하고, 발생한 장애에 대한 근본적인 원인을 찾아내는 데 초점이 맞춰져 있습니다. │Observability 확보를 위한 핵심 구성 요소 옵저버빌리티는 앞서 언급했듯이 메트릭(Metric), 로깅(Logging), 트레이싱(Tracing) 등 작업이 가능한데요. 좀 더 자세히 살펴보겠습니다. Metric 모니터링 분야에서 Metric(메트릭)이란, 인프라 혹은 서비스 성능과 상태를 나타내는 지표입니다. 여기서 중요한 점은 단순히 현재 상태를 보기 쉽게 표현하는 것에서 더 나아가 '시계열 데이터' 형태로 변화하는 데이터를 보여줘야 합니다. 예를 들어 CPU 사용률, 메모리 사용률, 스레드 사용률과 같이 시간이 지남에 따라 어떻게 변화하는지 효율적으로 보여줄 수 있어야 하죠. 또한 메트릭은 여러 AI 분석툴과 오픈소스와 결합하여, 직관적인 파라미터를 통해 시계열 데이터의 다양한 패턴을 자동 감지할 수 있어야 합니다. 운영자와 개발자에게 필요한 리소스를 선택할 수 있도록 성능 예측하는 지표도 필요합니다. Logging Logging(로깅)은 운영 중인 시스템과 애플리케이션에서 발생하는 다양한 이벤트와 에러 등을 기록하는 과정입니다. Observability는 여기서 더 나아가 클라우드 시스템의 모든 로그를 수집하여, 해당 로그를 통해 문제 원인을 식별할 수 있어야 합니다. 물론 각 로그 스트림은 단일 인스턴스에 대한 이벤트를 알려주기 때문에, 마이크로 서비스 환경에서 전체적인 문제 원인을 파악하기 어려울 수 있습니다. 하지만 중앙 집중식 로깅을 사용하면, 애플리케이션 로그를 한곳에 저장할 수 있습니다. 이를 통해 여러 서비스로 구성된 MSA 환경에서 로그를 효과적으로 검색하고 모니터링할 수 있죠. 이러한 작업을 하기 위해서 ELK Stack1 과 같은 로그 수집 활용 도구가 필요한데요. 이 도구는 로그 관리를 단순화화여, 전체 시스템 문제를 더 쉽게 분석할 수 있도록 도와줍니다. *ELK Stack1: Elastic Search. Logstash, Kibana의 약자로 데이터를 수집하고 분석하는 도구 모음 Tracing 트레이싱은 애플리케이션 실행 정보를 기록하는 '특별한 로깅' 방식을 의미합니다. 사실 로깅과 트레이싱을 구분하는 것에 큰 의미는 없습니다. 하지만 Observability 관점에서 트레이싱은, 전체 로그 중 문제를 일으키는 특정 로그들을 시각화하고 이를 선택적으로 관찰하는데 의미가 있습니다. Debugging Observability에서 말하는 디버깅은, 시스템과 서비스 성능을 확인하고 검사할 수 있는 다양한 도구입니다. 장애 원인을 찾을 경우 그 장애 원인뿐만 아니라, 연관관계를 가진 여러 인프라와 애플리케이션을 함께 보여줄 수 있어야 하죠. RUM RUM은 Real User Monitoring 약자로, 사용자의 인터랙션을 추적하여 웹사이트나 애플리케이션 성능을 실시간으로 모니터링하는 기술입니다. 옵저버빌리티는 앞서 언급했듯, 더 이상 IT 인프라 운영자를 위한 도구가 아닙니다. DevOps를 위한 통합적인 가시성을 제공하는 도구이죠. 따라서 운영자와 개발자를 위한 '실제 사용자 관점'에서 모니터링을 제공해야 합니다. 이처럼 옵저버빌리티 시스템은 애플리케이션의 전체적인 상태를 깊이 있게 파악하고, 문제 원인을 분석하는 데 중점을 두는 접근 방식입니다. 그렇다면 애플리케이션 성능 관리 시스템인 APM 도구와는 어떤 차이점이 있을까요? │APM과 Observability 차이점 어떻게 보면 APM과 Observability는 비슷해 보이지만, 문제 원인과 인프라를 분석하는 시각에 따라서 다양한 차이점을 지니고 있습니다. 우선 첫 번째 차이점으로는 모니터링 목적 대상에 따른 차이가 있습니다. APM은 E2E(End-to-End) 성능 구간에 주목합니다. WEB-WAS-DB에 걸친 이 과정을 실제 서비스 사용자의 *액티브 서비스2에 초점을 맞춰, 애플리케이션 성능을 분석하고 모니터링하죠. *액티브 서비스: 현재 시점에서 사용자에게 제공되고 있는 상태 Observability는 APM에서 주목하는 E2E보다, 더 많은 범위를 모니터링합니다. 시스템 인프라, WAS, DB에 대한 정밀 성능 분석과 장애 감지는 물론. 운영 중인 인프라와 서비스를 통합하여 문제 원인을 찾는 데 집중합니다. [그림] Zenius-APM 사용자 정의 실시간 모니터링 상황판 따라서 두 번째 차이점으로는, 측정하는 지표에도 많은 차이가 있는데요. APM은 사용자 요청에 따른 응답 시간과 응답 분포, 액티브 서비스 상태, 트랜잭션 처리율, 이슈 중심으로 '사용자 요청' 관점에 따라 주요 지표를 확인할 수 있습니다. Observability는 사용자의 요청 관점이 아닌, 발생할 수 있는 '모든 이벤트 지표'에 주목합니다. 보다 더 전방위적인 모니터링이 가능하죠. 또한 옵저버빌리티는 기존 APM에서 발생하는 주요 장애 원인뿐 아니라, 예측하지 못한 장애를 객관적인 지표로 보여줍니다. 정리한다면 인프라와 서비스를 분석하고 장애를 탐지한다는 점에서 APM과 Observability는 동일한 역할을 갖지만, 결국 사용자가 무엇을 더 초점에 맞추느냐에 따라 사용 목적은 아래와 같이 달라질 수 있습니다. 우리 기업은 Observability가 맞을까, APM가 맞을까? APM Type Observability Type 애플리케이션 성능 최적화가 필요한 경우 애플리케이션 코드 내의 문제를 식별하고 해결하는 데 중점을 둘 경우 MSA 환경이 아닌 모놀리식 아키텍처에서 서비스를 구성하고 있는 경우 MSA 환경에서의 분산 시스템을 통해 서비스를 구성하는 경우 단순한 애플리케이션 성능을 넘어 전체 IT 인프라 환경에 대한 통찰력 확보가 필요한 경우 인프라 운영자, 개발자, 보안담당자 모두가 통합 모니터링 환경이 필요한 경우 이번 글에서는 옵저버빌리티의 중요성과 APM의 차이점을 자세히 살펴보았습니다. 결론적으로 옵저버빌리티와 APM 중 어느 하나를 더 좋다고 할 수 없으며, 각 조직의 요구사항과 사용 편의성에 맞춰 선택해야 합니다. 그러나 점점 복잡해지는 IT 환경을 고려한다면, 옵저버빌리티를 기반으로 한 Zenius-APM과 같은 도구를 활용하여 좀 더 효율적으로 웹 애플리케이션을 관리해 보는 것은 어떨까요? ?더보기 Zenius APM 더 자세히 보기 ?함께 읽으면 더 좋아요 • APM에서 꼭 관리해야 할 주요 지표는?! • APM의 핵심요소와 주요기능은?!
2024.07.24
엣지 컴퓨팅을 위한 CNCF 프로젝트, KubeEdge 활용법
엣지 컴퓨팅을 위한 CNCF 프로젝트, KubeEdge 활용법
최근 몇 년 간 IT 분야는 급속한 발전을 거듭하고 있습니다. 특히 2010년대 중반부터 데이터를 온라인에 저장하는 기존 방식을 넘어서, 보다 진보된 컴퓨팅 기술이 등장하며 클라우드 컴퓨팅이 중요한 역할을 하게 되었습니다. 아마존 웹 서비스(AWS), 마이크로소프트(Microsoft), 구글(Google) 등의 대형 기업들이 클라우드 서비스를 주도해 나갔죠. 하지만 점점 IT 산업이 커지고 사물인터넷(IoT) 기술이 발전하면서 IT 장비에서 생성되는 데이터양이 기하급수적으로 많아졌습니다. IDC의 2018년 자료에 따르면, 2025년에는 전 세계에서 생성되는 데이터가 175ZB(*제타바이트1)에 도달할 예정이라고 합니다. 이처럼 수많은 데이터가 생성되고 중앙 서버에 저장/연산이 될 경우, 서버에 부하가 증가하는 문제가 발생하게 됩니다. *1. 1 ZB = 1021 bytes = 1,000,000,000,000,000,000,000 bytes 이를 해결하기 위해 2020년부터 중앙 서버에만 저장하지 않고, 클라우드 하위개념인 '클라우드렛'을 통해 데이터를 분산 처리하는 새로운 기술이 등장했는데요. 그 기술이 바로 엣지 컴퓨팅(Edge Computing)입니다. │엣지 컴퓨팅(Edge Computing)이란? 엣지 컴퓨팅은 데이터를 중앙 집중형 데이터 센터나 클라우드 대신, 데이터가 생성되는 가장 가까운 곳에서 처리하는 기술입니다. 쉽게 말해 중앙 서버가 아닌 데이터가 발생하는 '엣지(가장자리)'에서 직접 처리하는 것을 의미하죠. 엣지 컴퓨팅의 목적은 데이터 처리 응답 지연을 없애고, 실시간 성능을 개선하는 것입니다. 따라서 엣지 컴퓨팅의 가장 큰 특징이 '분산 처리 기능'이기도 합니다. 즉 가까운 곳에서 데이터를 처리하여, 부하를 분산하고, 통신 지역을 최소화하는 것이 엣지 컴퓨팅의 주목적입니다. │Edge Computing 필요성 그렇다면 엣지 컴퓨팅은 왜 점점 중요해지고 있을까요? 앞에서 언급했던 것처럼, IoT 시대가 도래하면서 다양한 디바이스에서 처리하는 데이터의 양이 폭발적으로 증가하고 있습니다. 이에 따라 요구되는 처리 속도와 응답 속도도 높아지고 있죠. 방대한 양의 데이터를 처리하기 위해서는 대규모 데이터 센터가 필요하지만, 각 위치에 데이터 센터를 두는 것보다 한 곳에서 중앙 집중식으로 처리하는 것이 더 효율적입니다. 이것이 클라우드 컴퓨팅이 대중화된 이유 중 하나입니다. 그러나 인터넷을 통해 클라우드로 데이터를 전송하고 처리한 후 반환할 때, 약간의 시간 지연이 발생합니다. 물론 로봇과 산업 장비의 센서 기술은 나날이 발전하고 있어, 어느 순간에도 상황을 정확하게 파악할 수 있게 되었습니다. 하지만 데이터 처리와 반응 사이에 시간 지연이 발생하면 정교한 *센싱 기술2 은 아직 어려운 편이죠. *2. 센싱 기술: 다양한 센서를 활용해 물리적 환경으로부터 데이터를 감지하고 수집하는 기술 이처럼 정밀하고 복잡한 동작을 수행하는 디바이스에는 고정밀 IoT가 필요한데요. 이를 위해서는 최대한 실시간에 가깝게 정보와 데이터를 주고받아야 하는데, 엣지 컴퓨팅가 이를 가능하게 합니다. 따라서 엣지 컴퓨팅은 IoT가 다음 단계로 나아가기 위해 필요한 기술로 주목받고 있죠. │Edge Computing 장점 엣지 컴퓨팅의 구체적인 이점은 무엇일까요? 엣지 컴퓨팅을 활용하면 얻을 수 있는 이점을 살펴보겠습니다. • 네트워크 트래픽 감소: 엣지 컴퓨팅은 데이터를 중앙 클라우드 서버로 보내지 않고 엣지(사용자 근처 단말기)에서 직접 처리하기 때문에, 네트워크 트래픽이 큰 폭으로 감소합니다. • 빠른 데이터 처리 응답시간: 데이터를 단말기에서 바로 처리하므로, 데이터 처리 응답 시간이 매우 빠릅니다. 실시간 응답이 중요한 애플리케이션에서는 큰 이점이죠. • 향상된 보안성: 개인정보 등 중요한 데이터를 중앙 데이터 센터로 전송하지 않아도 되므로 보안성이 높아집니다. 데이터가 로컬에서 처리되기 때문에 데이터 유출 위험이 줄어듭니다. • 장애 포인트 감소: 서버에 장애가 발생할 경우, 전체 서비스로 장애가 확대되는 클라우드 컴퓨팅과 달리 엣지 컴퓨팅은 개별 엣지의 장애가 다른 엣지로 전파되지 않게 합니다. 따라서 전체 시스템의 안정성이 향상되고 장애 포인트가 감소됩니다. │Edge Computing 활용 분야 엣지 컴퓨팅 활용분야는 다양하지만, 대표적인 엣지 컴퓨팅 적용사례로 스마트팩토리가 있습니다. 스마트 팩토리는 IoT, AI를 활용해 공정을 자동화하고 최적화하는 공장을 의미하는데요. 스마트팩토리에서는 제품 생산 과정에서 발생하는 모든 데이터를 중앙 클라우드 서버에 저장하면, 서버에 부하가 걸리기 쉽습니다. 이를 해결하기 위해 단순히 매일 반복되는 프로세스는 근처 엣지서버에 저장하고 데이터 연산 작업을 진행하죠. 반면 복잡하고 자주 처리되지 않는 데이터는 중앙 클라우드 서버에 저장합니다. 이렇게 하면 AI가 기기를 운영할 때 실시간 데이터 처리가 가능하여 지연 시간을 줄이고 효율성을 높일 수 있습니다. 여기서 엣지 서버는 지사 개념으로, 중앙 클라우드 서버는 본사 개념으로 이해할 수 있습니다. 엣지 컴퓨팅 활용 분야는 계속해서 확대되고 있습니다. 스마트팩토리 외에도 에너지 스트리밍, 게임, 헬스케어, 농업, 데이터센터, 자율주행, 스마트 시티 등 대규모 산업분야에 많이 사용되고 있습니다. │Edge Computing 도전 과제 하지만 엣지 컴퓨팅 기술에는 여러 도전과제가 있는데요, 대표적으로 애플리케이션 배포관리가 있습니다. 다양한 엣지 환경에서 애플리케이션을 배포하고 관리하는 것은, 생각만 해도 복잡한 프로세스이기 때문이죠. 이때 애플리케이션 버전 관리를 일관되게 하고 다양한 엣지 장치와 위치에서 호환성을 유지하려면, 효율적인 오케스트레이션 배포 시스템이 필요합니다. 이러한 과제를 해결하기 위해 여러 솔루션들이 연구되고 있는데요. 그중 하나가 쿠버네티스(Kubernetes, K8s)입니다. 쿠버네티스는 컨테이너화된 애플리케이션을 자동 배포하고, 확장하며, 관리하기 위한 오픈 소스 플랫폼입니다. 이때 쿠버네티스 기술에 + Edge를 접목한 것이 바로 KubeEdge입니다. 좀 더 자세히 알아볼까요? │KubeEdge란? KubeEdge는 쿠버네티스를 확장하여 엣지 컴퓨팅 환경을 지원하는 오픈 소스 플랫폼입니다. 엣지 컴퓨팅의 잠재력을 최대한 활용할 수 있는 플랫폼이죠. KubeEdge는 클라우드 컴퓨팅과 엣지 컴퓨팅의 경계를 허물기 위해 설계되었는데요. CNCF 재단에서 엣지 컴퓨팅 커뮤니티 구성원에 의해 개발되었고, 2018년 11월 상하이 KubeCon에서 처음 발표되었습니다. 쿠버네티스 기반으로 설계된 KubeEdge는, 2019년 3월에 첫 릴리즈 이후로 점차 안정화되고 있습니다. │KubeEdge 주요 기능 KubeEdge는 쿠버네티스를 사용해 클라우드와 엣지 리소스를 일관되게 관리할 수 있습니다. 또한 클라우드에서 운영하던 애플리케이션과 서비스를 동일한 방식으로 다룰 수 있죠. 이 밖에도 KubeEdge 주요 기능은 다음과 같습니다. • 엣지 클러스터 관리: KubeEdge는 엣지 환경에서도 쿠버네티스 클러스터를 효율적으로 관리할 수 있습니다. • 데이터 처리: 엣지에서 생성된 데이터를 로컬에서 처리하여, 네트워크 대역폭을 절약하고 응답 시간을 단축합니다. • 애플리케이션 오케스트레이션: 클라우드와 유사한 방식으로 엣지 애플리케이션을 배포하고 관리할 수 있습니다. • 보안: 엣지와 클라우드 간의 안전한 통신을 보장하여, 데이터 보안을 강화합니다. │KubeEdge 주요특징 KubeEdge 기능이 좀 더 원활하게 작업을 할 수 있도록 도와주는 주요 특징이 있는데요. 자세히 살펴보겠습니다. • 분산 아키텍처: KubeEdge는 클라우드와 엣지를 각각 포함하는 분산된 환경을 지원합니다. 클라우드에는 Kube-apiserver가 있으며, 엣지에는 실제 IoT 디바이스가 있습니다. 이를 통해 중앙 집중식 관리와 로컬 처리를 모두 가능하게 합니다. • 쿠버네티스 API 호환성: KubeEdge는 쿠버네티스 API와 호환됩니다. 이를 통해 기존에 쿠버네티스에 익숙한 사용자는 엣지 컴퓨팅 환경을 쉽게 관리할 수 있죠. • 리소스 제약 환경 지원: 엣지 디바이스는 일반적으로 제한된 컴퓨팅 자원을 가지고 있습니다. KubeEdge는 이러한 환경을 고려하여 설계되었기 때문에, 리소스가 제한된 환경에서도 효율적으로 작동합니다. • 오프라인 작동 지원: 엣지 노드는 네트워크에 연결되어 있지 않더라도, 일정 부분을 독립적으로 작동할 수 있습니다. 이는 인터넷 연결이 불안정한 환경에서 매우 유용합니다. • 경량화된 엣지 컴포넌트: KubeEdge는 엣지 측에 'EdgeCore'라는 경량화된 컴포넌트를 사용합니다. EdgeCore는 IoT 디바이스와의 통신/관리를 담당합니다. • 효율적인 통신: 클라우드와 엣지 사이의 통신은 *MQTT3와 같은 프로토콜을 사용하여 효율적으로 이루어집니다. 이는 데이터의 신속한 전송과 처리를 가능하게 합니다. *3. MQTT: Message Queuing Telementry Transport의 약자로 경량 메시지 전송 프로토콜 │KubeEdge 구성도 KubeEdge 구성도를 살펴보면 크게 Cloud, Edge, Device로 나누어져 있는데요. 각각 구성요소에 대한 설명은 아래와 같습니다. • Edged: Edge에서 컨테이너화된 애플리케이션을 관리합니다. 이는 엣지 디바이스에서 애플리케이션을 배포하고 실행하는 역할을 합니다. • EdgeHub: Edge에 위치한 통신 인터페이스 모듈로, 엣지 컴퓨팅을 위해 클라우드 서비스와 상호 작용하는 *웹 소켓4 클라이언트입니다. 클라우드와 실시간 데이터 통신을 담당합니다. • CloudHub: 클라우드에서의 통신 인터페이스 모듈입니다. 클라우드 측의 변경 사항을 감시하고, EdgeHub에 메시지를 캐싱하고 보내는 역할을 담당하는 웹 소켓 서버입니다. • Edge Controller: Edge 노드를 관리하는 모듈입니다. 이 모듈은 데이터를 특정 엣지 노드로 전달될 수 있도록, 엣지 노드와 포드 *메타데이터5를 관리합니다. 즉 Edge Controller는 쿠버네티스 컨트롤러 역할을 확장하여, 엣지 컴퓨팅 환경에서도 효율적인 노드 관리와 데이터 흐름을 가능하게 합니다. • EventBus: MQTT를 사용하여 내부 엣지 통신을 처리하는 모듈입니다. 이는 MQTT 서버와 상호 작용하여 다른 구성 요소에 게시와 구독 기능을 제공하는 MQTT 클라이언트 역할을 합니다. • Device Twin: 장치 메타 데이터를 처리하는 장치용 소프트웨어 미러입니다. 이 모듈은 장치 상태를 처리하고 이를 클라우드에 동기화하는 데 도움을 줍니다. 또한 경량 데이터베이스(SQLite)에 연결되어, 애플리케이션에 대한 쿼리 인터페이스도 제공합니다. • MetaManager: Edge 노드에서 메타데이터를 관리하는 모듈입니다. 이는 Edged와 EdgeHub 사이의 메세지 프로세서로, 경량 데이터베이스(SQLite)와의 메타데이터를 저장/검색하는 역할을 담당합니다. *4. 웹 소켓: 웹 브라우저와 서버 간의 실시간 양방향 통신을 가능하게 하는 프로토콜 *5. 포드 메타데이터: 파일 원본 데이터 외에 추가적인 속성이나 정보를 포함하는 메타데이터 이러한 각 구성 요소는 엣지와 클라우드 간의 원활한 통신, 애플리케이션 배포, 데이터 관리 등을 담당하여 엣지 컴퓨팅의 성능과 효율성을 극대화합니다. 이를 통해 실시간 데이터 처리와 안정적인 시스템 운영이 가능하죠. │엣지 컴퓨팅과 KubeEdge 미래 전망 그렇다면 엣지컴퓨팅과 KubeEdge 미래 전망은 어떨까요? 엣지 컴퓨팅과 KubeEdge의 결합은 데이터 생성 지점에서 즉시 처리를 가능하게 하여 지연 시간을 줄이고, 클라우드 네이티브 애플리케이션을 엣지 환경에서도 원활하게 실행할 수 있도록 지원합니다. 따라서 이러한 기술의 결합은 5g와 함께 자율주행차, 스마트 시티 등 다양한 분야에서 혁신을 이끌며, 향후 지속적인 성장이 예상됩니다. IDC에 따르면, 전 세계 엣지 컴퓨팅 지출은 2023년 2080억 달러에서 2026년까지 연평균 13.1%씩 성장하여 3170억 달러에 이를 것으로 예상됩니다. 이러한 성장은 디지털 전환 이니셔티브의 중요한 요소로 엣지 컴퓨팅의 역할이 확대되면서 더욱 가속화될 예정입니다. 국내에서도 엣지 컴퓨팅과 관련한 기술 발전과 시장 확장이 활발히 이루어지고 있습니다. 정부가 민간사업에게 5G 주파수를 할당하면서 이음 5G(5G 특화망) 서비스가 시작되었고, 이를 통해 자율 주행 로봇 등의 엣지 컴퓨팅 관련 서비스가 확대되고 있습니다. 결론적으로 엣지 컴퓨팅과 KubeEdge의 결합은, 미래의 디지털 트랜스 포메이션을 가속화할 핵심 기술로 자리 잡을 것으로 전망하고 있습니다. 이들의 발전은 다양한 산업 분야에서 새로운 비즈니스 모델과 기회를 창출하여, 우리의 생활 방식을 더욱 안전하고 편리하게 만들어 줄 것입니다. ?참고 자료 • MichaelShirer, "New IDC Spending Guide Forecasts Edge Computing Investments Will Reach $232 Billion in 2024", IDC • GordonHaff, "Edge computing: 4 trends for 2023", enterprisersproject • ShirleyStark, "Future Of Edge Computing: Top 6 Trends 2023", justtotaltech • TonyFyler, "Edge computing trends in 2023", techhq • Bluefriday, "KubeEdge concept", tistory • Mansoor Ahmed, "Kubernetes Native Edge Computing Framework, KubeEdge", linkedin • "TDK의 고급 HDD 헤드 기술은 사회의 디지털 변혁을 가속화합니다", shunlongwei • 양대규기자, 엣지에서 AI와 시각적 처리가 증가하는 이유, aitimes
2024.07.26
다음 슬라이드 보기