기술이야기 | 브레인즈컴퍼니

주메뉴 바로가기 본문 바로가기

메인 페이지로 이동
블로그
기술이야기

블로그

기술이야기

기술이야기 Spring MVC: 반복되는 검증 로직 한 번에 끝내기 기술이야기 Spring MVC: 반복되는 검증 로직 한 번에 끝내기 인프라 관리 도메인에서 API 설계 시 가장 빈번하게 등장하는 파라미터는 단연 targetId입니다. 하지만 이 식별자는 비즈니스 로직이 실행되기 전, 반드시 통과해야 하는 '삼중 관문'을 가지고 있습니다. 유효성 검사, 도메인 객체 변환, 그리고 권한 확인이 그것입니다. 초기 구현 단계에서는 이 관문들을 각 컨트롤러 메서드 내부에서 직접 제어하는 방식을 택했습니다. 하지만 인프라 규모가 커지고 API 엔드포인트가 늘어날수록, 이 직관적인 방식은 코드 중복과 유지보수 효율성 저하라는 아키텍처적 부채로 돌아오기 시작했습니다. API 엔드포인트가 수십 개로 늘어남에 따라, 동일한 검증 코드가 여러 컨트롤러에 산재하게 되는 구조적 문제가 발생했습니다. 이는 단순한 코드 중복(Boilerplate Code)을 넘어, 타겟 검증 정책이 변경될 때마다 관련된 모든 API를 수정해야 하는 유지보수의 취약점으로 이어졌습니다. 또한 비즈니스 로직과 검증 로직이 한 곳에 혼재됨에 따라 코드의 가독성이 저하되고, 수정 과정에서 누락이 발생할 경우 장애로 직결될 위험이 높습니다. 반복되는 검증 로직과 분산된 수정 포인트(N개의 지점) 문제를 근본적으로 해결하기 위해, 다음과 같은 명확한 엔지니어링 목표를 수립했습니다. “타겟 검증, 변환을 메서드 파라미터 주입 시점에 끝낸다” Spring MVC는 이미 @PathVariable, @RequestParam, @AuthenticationPrincipal과 같이 요청 데이터를 가공하여 컨트롤러 메서드 파라미터에 바인딩하는 표준화된 메커니즘을 제공하고 있습니다. 이 아키텍처 패턴에 착안하여, [ URL에서 타겟 ID 추출 → 유효성 검증 → 도메인 객체 변환 ]으로 이어지는 일련의 과정을 비즈니스 로직 진입 전인 '파라미터 주입 단계'에서 완결짓도록 HandlerMethodArgumentResolver를 적용했습니다. 이 아키텍처를 실제 코드로 구현하기 위해, 프로세스를 크게 세 가지 단계로 나누어 진행했습니다. 1. 메타데이터 정의 (Annotation): 어떤 파라미터를 검증할지 식별하고 정책을 부여 2. 로직 구현 (Resolver & Helper): 실제 값을 추출하고 도메인 객체로 변환하는 바인딩 로직 작성 3. 설정 등록 (Configuration): Spring MVC가 해당 리졸버를 인식하도록 설정 가장 먼저, 컨트롤러 파라미터에 검증 요구사항을 명시할 커스텀 어노테이션을 정의합니다. 1. 커스텀 어노테이션 정의 - @ToTargetInfoRecords 구현의 첫 단계로, 파라미터에 메타데이터를 부여할 커스텀 어노테이션을 정의합니다. 타겟에 대한 모든 정보를 TargetInfoRecord라는 도메인 객체로 캡슐화하여 관리하고 있습니다. 따라서 '해당 파라미터를 TargetInfoRecord 객체로 변환하라'는 명시적인 의미를 담아 @ToTargetInfoRecords라는 어노테이션을 설계했습니다. 이 어노테이션은 런타임 시점에 Resolver가 식별할 수 있어야 하므로 RUNTIME 정책을 사용하며, 파라미터 레벨에 적용되도록 타겟을 한정했습니다. - VALUE_PARAMETER로 메서드 파라미터에서만 사용하도록 제한합니다. - RUNTIME 보존으로 요청 처리 시점에 리졸버가 어노테이션 값을 읽습니다. 2. ArgumentResolver 구현 다음으로 Spring MVC의 HandlerMethodArgumentResolver 인터페이스를 구현하여 실질적인 바인딩 로직을 처리하는 ToTargetInfoRecordResolver를 작성합니다. HandlerMethodArgumentResolver를 상속한 ToTargetInfoRecordsResolver를 생성합니다. 3. 리졸버 등록 방법 구현한 리졸버가 실제로 동작하기 위해서는 Spring MVC의 Argument Resolver 체인에 등록해야 합니다. WebMvcConfigurer를 구현하여 우리가 만든 리졸버를 추가해주면, 이후 들어오는 요청에 대해 Spring이 자동으로 개입하게 됩니다. 이 리졸버를 등록한 후에 클라이언트로부터 요청이 들어오면, 컨트롤러 메서드 호출 직전에 파라미터 단위로 다음 순서가 진행됩니다. 1. Spring이 컨트롤러 메서드의 각 파라미터에 대해 등록된 리졸버 리스트를 순서대로 확인합니다. 2. supportsParameter(...)가 true인 첫 번째 리졸버를 선택합니다. 3. 선택된 리졸버의 resolveArgument(...)를 호출하여 값을 만들고, 그 반환값을 해당 파라미터에 주입합니다. 자세한 구현은 다음과 같습니다. 1) 어떤 파라미터를 내가 담당하는가 — supportsParameter 파라미터에 @ToTargetInfoRecords가 붙어 있으면 자신의 책임으로 판단합니다. 2) 값을 어떻게 만들고 주입하는가 — resolveArgument 3) URL에서 값은 어떻게 추출하는가 — 쿼리 vs 경로 - 쿼리스트링은 webRequest.getParameterValues()로, 경로 변수는HandlerMapping.URI_TEMPLATE_VARIABLES_ATTRIBUTE로 추출합니다. - 메서드 파라미터 타입이 List인지도 구분하고 검증합니다. 이렇게 헬퍼 클래스를 통해 요청 위치나 데이터 타입에 구애받지 않고 무결성이 검증된 데이터가 준비되면, 변환된 객체가 마침내 컨트롤러 메소드의 파라미터에 주입됩니다. 결과적으로 컨트롤러는 HTTP 요청의 복잡한 세부 사항을 전혀 모른 채, 안전하게 가공된 도메인 객체를 즉시 사용할 수 있게 됩니다. 실제 적용 사례 가장 눈에 띄는 변화는 컨트롤러의 간결함입니다. 기존에는 비즈니스 로직과 섞여 있던 '타겟 ID 추출', '유효성 검사', '도메인 변환', '권한 체크' 등의 횡단 관심사(Cross-cutting Concerns)가 완벽하게 분리되었습니다. 덕분에 개발자는 신규 API를 작성할 때 불필요한 반복 코드(Boilerplate)를 작성하는 수고를 덜고, 핵심 비즈니스 로직 구현에만 온전히 집중할 수 있게 되었습니다. 또한, 유지보수 측면에서도 강력한 이점을 가집니다. 만약 타겟 검증 정책이 변경되더라도 수십 개의 컨트롤러를 일일이 수정할 필요 없이, ArgumentResolver의 로직 한 곳만 수정하면 전사적으로 변경 사항이 반영됩니다. 다수의 API에서 [URL로부터 값 추출 → 검증 → 도메인 객체 변환]의 패턴이 반복되는 프로젝트라면, HandlerMethodArgumentResolver를 적극적으로 도입하여 코드의 품질과 생산성을 높여보시는 것을 권장합니다. 2026.03.06
기술이야기 IT 인프라 모니터링 시스템의 컨트롤러 개선기, ArgumentResolver를 통한 중복 제거 기술이야기 IT 인프라 모니터링 시스템의 컨트롤러 개선기, ArgumentResolver를 통한 중복 제거 대규모 IT 인프라를 모니터링하는 도메인에서는 서버나 네트워크 장비와 같은 관리 대상을 통칭하여 타겟(Target)이라고 부릅니다. 이에 따라 대다수의 API는 리소스 식별을 위해 URL 경로(Path Variable)나 쿼리 스트링(Query Parameter)을 통해 targetId를 필수적으로 전달받는 구조를 가지고 있습니다. 이 targetId는 단순한 문자열 식별자가 아니라, 실제 비즈니스 로직이 수행되기 전 반드시 선행되어야 하는 일련의 검증 절차를 요구합니다. 구체적으로는 클라이언트 입력값에 대한 유효성 검사, 해당 ID를 기반으로 한 DB 조회 및 도메인 객체(TargetInfoRecord)로의 매핑, 그리고 해당 타겟에 대한 사용자 접근 권한(Authorization) 확인 과정이 포함됩니다. 프로젝트 초기 구현 단계에서는 이러한 전처리 로직을 각 컨트롤러 메서드 바디 상단에 직접 구현하는 방식을 취했습니다. 하지만 API 엔드포인트가 수십 개로 늘어남에 따라, 동일한 검증 코드가 여러 컨트롤러에 산재하게 되는 구조적 문제가 발생했습니다. 이는 단순한 코드 중복(Boilerplate Code)을 넘어, 타겟 검증 정책이 변경될 때마다 관련된 모든 API를 수정해야 하는 유지보수의 취약점으로 이어졌습니다. 또한 비즈니스 로직과 검증 로직이 한 곳에 혼재됨에 따라 코드의 가독성이 저하되고, 수정 과정에서 누락이 발생할 경우 장애로 직결될 위험이 높습니다. 반복되는 검증 로직과 분산된 수정 포인트(N개의 지점) 문제를 근본적으로 해결하기 위해, 다음과 같은 명확한 엔지니어링 목표를 수립했습니다. “타겟 검증, 변환을 메서드 파라미터 주입 시점에 끝낸다.” Spring MVC는 이미 @PathVariable, @RequestParam, @AuthenticationPrincipal과 같이 요청 데이터를 가공하여 컨트롤러 메서드 파라미터에 바인딩하는 표준화된 메커니즘을 제공하고 있습니다. 이 아키텍처 패턴에 착안하여, [ URL에서 타겟 ID 추출 → 유효성 검증 → 도메인 객체 변환 ]으로 이어지는 일련의 과정을 비즈니스 로직 진입 전인 '파라미터 주입 단계'에서 완결짓도록 HandlerMethodArgumentResolver를 적용했습니다. 이 아키텍처를 실제 코드로 구현하기 위해, 프로세스를 크게 세 가지 단계로 나누어 진행했습니다. 메타데이터 정의 (Annotation): 어떤 파라미터를 검증할지 식별하고 정책을 부여 로직 구현 (Resolver & Helper): 실제 값을 추출하고 도메인 객체로 변환하는 바인딩 로직 작성 설정 등록 (Configuration): Spring MVC가 해당 리졸버를 인식하도록 설정 가장 먼저, 컨트롤러 파라미터에 검증 요구사항을 명시할 커스텀 어노테이션을 정의합니다. 1. 커스텀 어노테이션 정의 - @ToTargetInfoRecords 구현의 첫 단계로, 파라미터에 메타데이터를 부여할 커스텀 어노테이션을 정의합니다. 타겟에 대한 모든 정보를 TargetInfoRecord라는 도메인 객체로 캡슐화하여 관리하고 있습니다. 따라서 '해당 파라미터를 TargetInfoRecord 객체로 변환하라'는 명시적인 의미를 담아 @ToTargetInfoRecords라는 어노테이션을 설계했습니다. 이 어노테이션은 런타임 시점에 Resolver가 식별할 수 있어야 하므로 RUNTIME 정책을 사용하며, 파라미터 레벨에 적용되도록 타겟을 한정했습니다. - VALUE_PARAMETER로 메서드 파라미터에서만 사용하도록 제한합니다. - RUNTIME 보존으로 요청 처리 시점에 리졸버가 어노테이션 값을 읽습니다. 2. ArgumentResolver 구현 다음으로 Spring MVC의 HandlerMethodArgumentResolver 인터페이스를 구현하여 실질적인 바인딩 로직을 처리하는 ToTargetInfoRecordResolver를 작성합니다. HandlerMethodArgumentResolver를 상속한 ToTargetInfoRecordsResolver를 생성합니다. 3. 리졸버 등록 방법 구현한 리졸버가 실제로 동작하기 위해서는 Spring MVC의 Argument Resolver 체인에 등록해야 합니다. WebMvcConfigurer를 구현하여 우리가 만든 리졸버를 추가해주면, 이후 들어오는 요청에 대해 Spring이 자동으로 개입하게 됩니다. 이 리졸버를 등록한 후에 클라이언트로부터 요청이 들어오면, 컨트롤러 메서드 호출 직전에 파라미터 단위로 다음 순서가 진행됩니다. 1. Spring이 컨트롤러 메서드의 각 파라미터에 대해 등록된 리졸버 리스트를 순서대로 확인합니다. 2. supportsParameter(...)가 true인 첫 번째 리졸버를 선택합니다. 3. 선택된 리졸버의 resolveArgument(...)를 호출하여 값을 만들고, 그 반환값을 해당 파라미터에 주입합니다. 자세한 구현은 다음과 같습니다. 1) 어떤 파라미터를 내가 담당하는가 — supportsParameter 파라미터에 @ToTargetInfoRecords가 붙어 있으면 자신의 책임으로 판단합니다. 2) 값을 어떻게 만들고 주입하는가 — resolveArgument 3) URL에서 값은 어떻게 추출하는가 — 쿼리 vs 경로 - 쿼리스트링은 webRequest.getParameterValues()로, 경로 변수 HandlerMapping.URI_TEMPLATE_VARIABLES_ATTRIBUTE로 추출합니다. - 메서드 파라미터 타입이 List인지도 구분하고 검증합니다. 이렇게 헬퍼 클래스를 통해 요청 위치나 데이터 타입에 구애받지 않고 무결성이 검증된 데이터가 준비되면, 변환된 객체가 마침내 컨트롤러 메소드의 파라미터에 주입됩니다. 결과적으로 컨트롤러는 HTTP 요청의 복잡한 세부 사항을 전혀 모른 채, 안전하게 가공된 도메인 객체를 즉시 사용할 수 있게 됩니다. 실제 적용 사례 가장 눈에 띄는 변화는 컨트롤러의 간결함입니다. 기존에는 비즈니스 로직과 섞여 있던 '타겟 ID 추출', '유효성 검사', '도메인 변환', '권한 체크' 등의 횡단 관심사(Cross-cutting Concerns)가 완벽하게 분리되었습니다. 덕분에 개발자는 신규 API를 작성할 때 불필요한 반복 코드(Boilerplate)를 작성하는 수고를 덜고, 핵심 비즈니스 로직 구현에만 온전히 집중할 수 있게 되었습니다. 또한, 유지보수 측면에서도 강력한 이점을 가집니다. 만약 타겟 검증 정책이 변경되더라도 수십 개의 컨트롤러를 일일이 수정할 필요 없이, ArgumentResolver의 로직 한 곳만 수정하면 전사적으로 변경 사항이 반영됩니다. 다수의 API에서 [URL로부터 값 추출 → 검증 → 도메인 객체 변환]의 패턴이 반복되는 프로젝트라면, HandlerMethodArgumentResolver를 적극적으로 도입하여 코드의 품질과 생산성을 높여보시는 것을 권장합니다. 2026.02.06
기술이야기 효율적인 로그 모니터링과 실시간 로그 분석을 위한 OpenSearch PPL 활용 가이드 기술이야기 효율적인 로그 모니터링과 실시간 로그 분석을 위한 OpenSearch PPL 활용 가이드 오늘날 대규모 인프라 환경에서 발생하는 방대한 데이터를 관리하기 위해 로그 모니터링과 로그분석은 필수적인 요소가 되었습니다. OpenSearch(및 Elasticsearch)는 이 분야의 사실상 표준으로 자리 잡았으나, 이를 활용하는 엔지니어와 분석가들은 강력한 기능의 이면에 있는 ‘Query DSL’이라는 높은 진입 장벽을 마주하곤 합니다. JSON 형식을 기반으로 하는 DSL은 검색 조건을 매우 정밀하게 정의할 수 있다는 장점이 있습니다. 하지만 쿼리가 복잡해질수록 로직이 깊게 중첩되어 가독성이 떨어지고 생산성이 저하되는 구조적 문제를 안고 있습니다. 특히 1분 1초가 급한 장애 상황이나 보안 침해 사고를 분석해야 하는 SIEM(보안 정보 및 이벤트 관리) 환경에서, 수십 줄의 JSON 괄호를 맞추는 작업은 민첩한 대응을 방해하는 실질적인 걸림돌이 됩니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 PPL(Piped Processing Language)입니다. PPL이 제안하는 새로운 분석 방식을 살펴보기 전, 먼저 우리가 기존 DSL 환경에서 겪어온 실제적인 어려움들을 통해 왜 방식의 변화가 필요한지 짚어보겠습니다. 1. 데이터 탐색의 어려움 1.1. OpenSearch DSL OpenSearch(및 Elasticsearch)는 검색 엔진 시장의 사실상 표준으로 자리 잡았지만, 데이터 분석가나 엔지니어들에게는 한 가지 큰 진입 장벽이 존재했습니다. 바로 Query DSL(Domain Specific Language)입니다. DSL은 JSON(JavaScript Object Notation) 형식을 기반으로 하며, 검색 쿼리의 구조를 매우 정밀하게 정의할 수 있다는 강력한 장점이 있습니다. 하지만 이는 동시에 인간의 직관과는 거리가 먼 방식이기도 합니다. DSL은 쿼리가 복잡해질수록 JSON 객체가 깊게 중첩되는 특성이 있기 때문입니다. 예를 들어 단순한 GROUP BY 집계를 수행하려 해도 aggs안에 terms, 그 안에 다시 aggs를 정의해야 하는 피라미드 구조가 형성됩니다. 일반적으로 데이터를 탐색하는 과정은 "A를 찾고, B를 제외한 뒤, C로 묶어서 계산한다"라는 선형적인 사고를 따릅니다. 하지만 DSL은 이 모든 조건을 하나의 거대한 JSON 객체로 구조화해야 하므로, 작성과 수정 시 높은 집중력을 요합니다. 또한 로그를 분석하거나 장애 원인을 파악하는 긴급한 상황에서, 수십 줄의 JSON 괄호 짝들은 가독성과 생산성을 저하시키는 요인이 됩니다. <예시 1.1: 지난 1시간 동안 500 에러가 발생한 상위 5개 IP 추출하기 위한 DSL문> 1.2. PPL(Piped Processing Language) PPL은 이러한 구조적 복잡성을 해결하기 위해 등장했습니다. 이름에서 알 수 있듯이, 파이프(Pipe, |)를 통해 데이터를 순차적으로 처리하는 언어입니다. PPL이 가져온 변화는 단순히 문법의 형태를 바꾼 수준에 그치지 않습니다. 데이터에 접근하는 패러다임 자체를 선언적 구조(JSON)에서 절차적 흐름(Pipeline)으로 전환시킨 것입니다. 이는 Unix와 Linux에서 익숙하게 사용되는 명령어 파이프라인 철학을 데이터 검색 엔진에 이식한 결과이기도 합니다. 이러한 방식의 변화 덕분에 사용자는 더 이상 복잡한 JSON의 계층 구조를 설계할 필요가 없습니다. 대신 "데이터를 가져오고, 필터링한 뒤, 통계를 낸다"는 인간의 자연스러운 사고 흐름에 맞춰 질의를 작성할 수 있게 되었습니다. 이는 결과적으로 쿼리 작성 시간을 단축시키고, 분석가의 의도를 더욱 명확하게 코드에 투영할 수 있게 해줍니다. <예시 1.2: 예시 1.2와 동일한 로직을 PPL로 작성한 경우> 2. PPL의 핵심 특징 및 장점 PPL을 도입해야 하는 이유는 단순히 쓰기 편해서가 아닙니다. 이는 데이터 분석의 접근성(Accessibility), 가독성(Readability), 유연성(Flexibility) 측면에서 근본적인 이점을 제공하기 때문입니다. 2.1. SQL-like Syntax 데이터 업계에서 SQL은 가장 보편적인 언어입니다. PPL은 SQL의 문법적 특성을 차용하여 접근성을 높였습니다. SELECT, WHERE, LIKE 등 익숙한 키워드를 그대로 사용하므로, 새로운 도구 도입에 따른 저항감을 최소화합니다. 2.2. Pipe ($|$) PPL의 가장 강력한 무기는 | (파이프) 연산자입니다. 이는 쿼리를 논리적 단계로 분해합니다. 1단계: 전체 데이터 가져오기 (source=logs) 2단계: 필요한 부분만 남기기 (| where status=500) 3단계: 불필요한 필드 버리기 (| fields timestamp, message) 이처럼 하나의 문제를 단계별로 쪼개며 순차적으로 해결할 수 있습니다. 이러한 방식은 디버깅의 용이성도 증가시킵니다. DSL은 쿼리가 실패하면 전체 JSON 구조를 다시 살펴봐야 하지만, PPL은 파이프를 하나씩 끊어가며 어느 단계에서 데이터가 의도와 다르게 변형되었는지 즉시 확인할 수 있습니다. 2.3. Aggregation의 추상화 OpenSearch의 집계(Aggregation) 기능은 강력하지만 DSL 작성이 매우 까다롭습니다. PPL은 이를 stats 명령어로 추상화했습니다. 기존 DSL 방식에서 집계를 하려면 버킷(Buckets)과 메트릭(Metrics)의 개념을 이해하고, 이를 JSON의 계층 구조로 쌓아 올려야 했습니다. 하지만 PPL은 이 복잡한 과정을 우리가 흔히 쓰는 SQL 스타일로 탈바꿈시켰습니다. 간단한 시나리오인 “카테고리별 평균 가격 구하기”를 DSL로 작성하면 aggs 안에 그룹핑을 위한 terms를 정의하고, 그 안에 다시 계산을 위한 aggs를 중첩해야 합니다. 평균을 구한다라는 쿼리의 의도보다 괄호와 같은 문법적 구조에 더 신경 써야 합니다. 그룹핑 조건이 늘어날수록 JSON은 기하급수적으로 깊어집니다. 반면 동일한 시나리오를 PPL로 작성하면 stats 이라는 명령어로 간단하게 표현할 수 있습니다. stats: "집계를 시작하겠다"는 선언입니다. avg(price): "무엇을 계산할지" 명시합니다. (Metric) by category: "무엇을 기준으로 묶을지" 명시합니다. (Bucket) 단 한 줄의 코드로 DSL의 복잡한 로직을 완벽하게 대체할 수 있습니다. 2.4. 동적 필드 생성 데이터 분석을 하다 보면, 인덱스에 저장된 원본 데이터(Raw Data)만으로는 부족할 때가 많습니다. - 용량이 bytes 단위로 저장되어 있어 보기 불편한 경우 - 파일 경로와 파일 이름이 하나의 필드에 있어 각각 분리해야 하는 경우 - 보낸 용량, 받은 용량만 있고 총 용량이 없는 경우 이를 해결하기 위해 데이터를 재색인(Reindexing)하는 것은 너무 복잡한 과정입니다. 하지만 PPL은 eval 명령어 하나로 쿼리 실행 시점에 필드를 즉석에서 생성합니다. 바이트 단위를 메가바이트로 변환하여 새로운 필드 size_mb를 만드는 로직은 eval 명령어와 간단한 연산자를 이용하여 작성할 수 있습니다. 원본 데이터에는 size_mb라는 필드가 존재하지 않습니다. 하지만 PPL이 실행되는 순간 계산되어, 마치 원래 있던 필드처럼 where 절에서 필터링 조건으로 사용하거나 fields로 출력할 수 있습니다. PPL의 eval은 데이터 저장 구조(Schema)가 분석의 한계가 되지 않도록, 분석가에게 데이터를 재정의할 수 있는 강력한 권한을 부여하는 기능입니다. 3. PPL 문법 해부 앞서 PPL이 데이터 분석에 제공하는 근본적인 이점들을 살펴보았습니다. 하지만 이러한 장점들을 실무에 온전히 녹여내기 위해서는 PPL이 데이터를 처리하는 방식, 즉 문법의 구조를 정확히 이해하는 과정이 필요합니다. PPL의 문법은 단순한 규칙의 나열이 아니라, 데이터의 흐름을 제어하는 그 자체입니다. 각 명령어는 이전 단계에서 넘어온 데이터를 가공하여 다음 단계로 넘겨주는 '필터' 역할을 수행합니다. 마치 공장의 컨베이어 벨트 위에서 원재료가 각 공정을 거쳐 완성품이 되는 것과 같은 원리입니다. 그럼 지금부터 데이터 분석 현장에서 가장 빈번하게 사용되는 6가지 핵심 명령어를 통해 PPL의 구조를 깊이 있게 살펴보겠습니다. 3.1. source 모든 PPL 쿼리의 시작점입니다. SQL의 FROM 절에 해당하지만, PPL에서는 search source=... 형태로 명시합니다. 단일 인덱스뿐만 아니라 와일드카드(*)를 사용하여 여러 인덱스를 동시에 조회할 수 있습니다. search source=logs-* : 'logs-'로 시작하는 모든 인덱스 조회. 3.2. where 분석에 불필요한 데이터를 걸러내는 단계입니다. SQL의 WHERE 절과 동일합니다. where는 파이프라인의 가장 앞단에 위치시키는 것이 성능상 유리합니다. 처리해야 할 데이터의 총량을 줄여주기 때문입니다. where는 AND, OR, NOT 논리 연산자와 in, like 등의 비교 연산자를 모두 지원합니다. 3.3. eval 원본 데이터에는 없지만 분석 시점에 필요한 새로운 데이터를 만들어냅니다. 기존 필드 값을 이용해 계산을 하거나 문자열을 조합하여 새로운 필드를 정의합니다. 3.4. stats SQL의 GROUP BY와 집계 함수를 합친 개념입니다. 문법: stats <function>(<field>) by <grouping_field> 집계함수: count, sum, avg, min, max와 같은 통계 분석에 필요한 함수를 제공합니다. 3.5. fields 최종 사용자에게 보여줄 데이터를 다듬는 과정입니다. SELECT 절과 유사합니다. 수백 개의 필드 중 분석에 필요한 핵심 필드만 남깁니다 (+로 포함, -로 제외 가능). rename: 기술적인 필드명(예: req_ts_ms)을 비즈니스 친화적인 이름(예: Response Time)으로 변경하여 가독성을 높입니다. 3.6. sort & head sort: 데이터의 정렬 순서를 정합니다. - 기호를 붙이면 내림차순(DESC)이 됩니다. (sort -count) head: SQL의 LIMIT와 같습니다. 상위 N개의 결과만 잘라냅니다. 대량의 데이터 분석 시 결과를 끊어서 확인하는 데 필수적입니다. 4. 실전 예제 지금까지 PPL의 기본 개념과 주요 명령어들을 살펴보았습니다. 하지만 도구의 진정한 가치는 이론적인 문법을 아는 것에 그치지 않고, 이를 실제 복잡한 데이터 환경에 어떻게 적용하느냐에 있습니다. 이제 우리가 현업에서 흔히 마주할 수 있는 구체적인 시나리오들을 통해, PPL이 실무적인 문제들을 얼마나 직관적이고 효율적으로 해결하는지 단계별로 알아보겠습니다. 4.1. Brute Force 공격 탐지 상황: 과도한 로그인 실패(401 Error) IP 식별 1) search source=access_logs: 엑세스 로그 전체를 가져옵니다. 2) where status = 401: 전체 로그 중 로그인 실패 로그만 남깁니다. 3) stats count() as fail_count by client_ip: IP 주소별로 실패 횟수를 집계합니다. 이제 데이터는 개별 로그가 아니라 'IP별 요약 정보'가 됩니다. 4) where fail_count > 50: 50회 이상 실패한 의심 IP만 필터링합니다. (집계 후 필터링 - SQL의 HAVING 절과 유사) 5) sort -fail_count: 가장 공격 빈도가 높은 IP를 최상단에 노출합니다. 4.2. 카테고리별 매출 분석 상황: 상품 카테고리별 매출 현황과 평균 단가 확인 1) eval revenue = price * quantity: price와 quantity 필드를 곱하여, 원본 데이터에 없던 revenue(매출액) 필드를 실시간으로 계산해냅니다. 2) stats sum(revenue) as total_sales, avg(revenue) as avg_order_value by category: 카테고리 기준으로 총 매출(sum)과 평균 주문액(avg)을 동시에 계산합니다. 3) head 10: 상위 10개 카테고리만 추출하여 리포트용 데이터를 완성합니다. 4.3. 시간대별 트래픽 추이 시각화 상황: 지난 24시간 동안 웹 서버의 트래픽 변화 1) span(timestamp, 10m): 연속적인 시간 데이터를 10분 단위로 자릅니다. 2) stats count() as request_count by ...: 잘라낸 10분 단위별로 요청 수(count)를 셉니다. 결과: 이 쿼리의 결과는 그대로 라인 차트(Line Chart)나 바 차트(Bar Chart)로 시각화하기 완벽한 형태(X축: 시간, Y축: 횟수)가 됩니다. 5. PPL 성능 최적화와 고려사항 PPL은 사용자가 직관적으로 쿼리를 작성할 수 있게 돕지만, 그 이면에서는 방대한 데이터를 처리하는 무거운 작업이 수행됩니다. 도구의 편리함이 시스템의 부하로 이어지지 않도록, 쿼리 효율성을 고려하는 분석 습관을 갖추는 것이 중요합니다 5.1. 성능 최적화 방안 PPL 쿼리는 파이프라인 구조이기 때문에, 앞단에서 데이터의 크기를 줄일수록 전체 실행 속도가 기하급수적으로 빨라집니다. 1) where는 search 바로 뒤에 오는 것이 좋습니다. 데이터를 집계(stats)하거나 정렬(sort)한 뒤에 필터링하는 것은 낭비입니다. 불필요한 데이터를 메모리에 올리기 전에 where 절로 과감하게 잘라내야 합니다. 2) 필요한 필드만 명시하는 것이 좋습니다. OpenSearch 문서는 수십, 수백 개의 필드를 가질 수 있습니다. fields 명령어를 사용하여 분석에 꼭 필요한 필드만 남기면 네트워크 전송량과 메모리 사용량을 획기적으로 줄일 수 있습니다. 5.2. PPL vs DSL 언제 무엇을 써야 할까? PPL이 등장했다고 해서 기존의 DSL(Domain Specific Language)이 사라지는 것은 아닙니다. 두 언어는 태생적 목적이 다릅니다. 이 둘을 상호 보완적인 관계로 이해하고 적재적소에 사용하는 것이 좋습니다. 1) PPL을 써야 하는 경우 - 사람 중심, 탐색, Ad-hoc 분석, 운영/보안 PPL은 사람이 데이터를 봐야 하는 상황에 최적화되어 있습니다. 사고의 흐름이 끊기지 않고 빠르게 질문을 던지고 답을 얻어야 하는 상황입니다. * 상황 A: 장애 발생 시 긴급 원인 분석 "지금 500 에러가 급증하는데, 특정 API에서만 발생하는 건가?" 긴급 상황에서 복잡한 JSON 괄호를 맞출 시간은 없습니다. PPL로 빠르게 필터링(where)하고 집계(stats)하여 원인을 좁혀나가야 합니다. * 상황 B: 보안 위협 헌팅 "지난 1주일간 새벽 시간에만 접속한 관리자 계정이 있는가?" 데이터를 이리저리 돌려보고, 조건을 바꿔가며 숨겨진 패턴을 찾아내는 '탐색적 분석'에는 수정이 용이한 PPL이 압도적으로 유리합니다. * 상황 C: 비개발 직군의 데이터 접근 기획자(PM), 마케터, 데이터 분석가가 직접 데이터를 추출해야 할 때. SQL에 익숙한 이들에게 JSON DSL을 학습시키는 것은 비효율적입니다. PPL은 이들에게 데이터 접근 권한을 열어주는 열쇠가 됩니다. 2) DSL을 써야 하는 경우 키워드: 기계 중심, 애플리케이션 개발, 정밀도, 검색 튜닝 DSL은 애플리케이션이 데이터를 조회할 때 최적화되어 있습니다. 코드로 구현되어 시스템의 일부로 동작하거나, 매우 정교한 검색 로직이 필요할 때 사용합니다. * 상황 A: 검색 서비스 기능 구현 쇼핑몰 검색창, 자동 완성, 추천 시스템 등 최종 사용자에게 노출되는 기능을 개발할 때. Java, Python, Go 등의 클라이언트 라이브러리(SDK)는 객체 지향적인 JSON 구조(DSL)와 완벽하게 매핑됩니다. 코드로 쿼리를 조립하기에는 DSL이 훨씬 안정적입니다. * 상황 B: 정교한 검색 랭킹 튜닝 function_score, boosting, slop 등 검색 품질을 미세하게 조정하는 기능은 DSL만이 100% 지원합니다. PPL은 '분석'에 강하지만 '검색 랭킹' 제어력은 약합니다. * 상황 C: 초고성능 최적화가 필요한 고정 쿼리 수천만 건의 데이터를 0.1초 안에 조회해야 하는 API 백엔드. DSL은 필터 캐싱, 라우팅 제어 등 엔진 내부의 최적화 기능을 극한까지 활용할 수 있는 세밀한 옵션들을 제공합니다.\ 3) 정리 지금까지 OpenSearch의 PPL(Piped Processing Language)에 대해 깊이 있게 살펴보았습니다. 과거에는 OpenSearch 데이터를 분석하려면 'JSON 괄호와의 싸움'을 피할 수 없었습니다. 하지만 PPL의 등장으로 이제 SQL을 아는 개발자, 데이터 분석가, 심지어 비개발 직군까지도 데이터와 직접 대화할 수 있는 길이 열렸습니다. PPL이 가져온 변화는 명확합니다. - 직관성: 사고의 흐름대로 파이프(|)를 연결하여 로직을 구현합니다. - 생산성: 복잡한 집계 코드를 단 한 줄로 압축합니다. - 협업: 누구나 읽고 이해할 수 있는 코드로 팀 간 커뮤니케이션이 원활해집니다. 여러분의 데이터 인프라에 OpenSearch가 있다면, 오늘 당장 복잡한 JSON 대신 PPL을 입력해 보시길 권합니다. 단순히 쿼리 언어를 바꾸는 것을 넘어, 데이터 속에 숨겨진 인사이트를 발견하는 속도가 달라질 것입니다. 2026.01.07
기술이야기 브라우저 모니터링 시스템 Zenius BRMS의 주요 기능과 특장점은?! 기술이야기 브라우저 모니터링 시스템 Zenius BRMS의 주요 기능과 특장점은?! 디지털 서비스에서 사용자가 직접 체감하는 경험은 서비스 만족도를 좌우합니다. 로그인 버튼을 눌렀는데 화면이 전환되지 않는다거나 chrome 환경에서만 동작하고 타 브라우저에서는 호환되지 않는 등의 문제는 누구나 한 번쯤 겪어봤을 것입니다. 이런 작은 불편이 반복되면 사용자는 쉽게 이탈하고, 브랜드 전체에 대한 신뢰도 역시 떨어집니다. 최종 사용자 경험을 모니터링 하지 않는 것은 최고의 스킬을 지닌 축구선수가 실내 경기장에서만 훈련받고 필드에서는 뛰어보지 않는 것과 같습니다. 그러나 PC, 모바일, 태블릿 등 사용자가 다양한 기기를 오가며 서비스를 이용하는 상황에서, 운영자가 모든 브라우저의 사용자 경험을 관찰하기는 쉽지 않습니다. 서버 로그를 수집하거나 백엔드 지표를 모니터링하는 것만으로는 사용자가 실제로 느끼는 경험을 알 수 없습니다. 결국 사용자 브라우저에서 실제로 발생하는 데이터를 기반으로, 체감 성능을 모니터링할 수 있는 체계가 필요합니다. 이에 따라서 Zenius BRMS 같은 브라우저 모니터링 시스템이 주목받고 있습니다. Zenius BRMS는 최종 사용자가 브라우저와 모바일 환경에서 겪는 여정을 그대로 추적해 보여줍니다. 페이지 로드 시간, 버튼 클릭 후 반응 속도, 오류 발생 여부까지 사용자가 겪는 체감 성능을 데이터로 전환해 운영자에게 제공합니다. 즉, Zenius BRMS는 사용자 경험의 사각지대를 제거하고, 서비스 품질을 선제적으로 관리하는 필수 솔루션입니다. 단순히 문제가 발생했을 때 대응하는 수준이 아니라, 데이터 기반으로 사용자 여정을 개선하고, 기업의 비즈니스 성과를 높이는 전략적 도구입니다. Zenius BRMS의 주요기능과 특장점을 자세히 살펴보겠습니다. 웹브라우저 모니터링 시스템, Zenius BRMS의 주요 기능 3가지 Zenius BRMS는 브라우저 환경에서 발생하는 성능 데이터와 사용자 행동 데이터를 실시간으로 수집하고 이를 자동으로 축적하여, 서비스 품질을 다각도로 분석할 수 있는 환경을 제공합니다. 운영자는 Core Web Vitals와 같은 성능 지표뿐만 아니라 세션 단위의 사용자 여정, 시간대별 성능 패턴까지 한눈에 조회할 수 있으며, 단일 항목 분석은 물론 복수 항목을 조합한 비교 분석도 수행할 수 있습니다. 이러한 기능은 실제 사용자의 경험을 정량적으로 파악하고 문제 발생 구간을 조기에 식별할 수 있도록 돕습니다. 특히 각 결과는 차트, 색상, 단위로 시각화되어 활용 효율을 높이며, 이를 기반으로 한 분석은 서비스 성능 개선, 사용자 만족도 제고, 예측 기반 운영 전략 수립 등 실질적인 성과 창출에 기여합니다. 1) 사용자 체감 성능 기반 모니터링 Zenius BRMS는 Core Web Vitals(LCP, INP, CLS)를 포함해 브라우저 성능의 핵심 지표를 자동으로 수집합니다. 세션, 페이지, 리소스, 에러 단위로 세분화된 모니터링을 제공하며, 퍼센타일 지표(P50, P75, P95)를 통해 평균값 뒤에 숨은 실제 사용자 분포까지 파악할 수 있습니다. 또한 대시보드를 통해 로드 시간, 에러율, 방문자 수 등의 체감 성능도 직관적으로 확인할 수 있습니다. 이를 통해 운영자는 서비스의 성능 저하 원인을 시스템 관점에서만 확인할 수 있는 것이 아니라 리소스별 응답시간, 지역별 성능 속도 등 사용자 관점에서까지 정량적으로 확인할 수 있습니다. 이러한 데이터는 궁극적으로 사용자 만족도를 높여 이탈률을 줄이고 서비스 신뢰성을 강화하는 데 기여합니다. 2) 사용자 행동 분석과 세션 리플레이 세션 리플레이 기능은 사용자가 실제로 클릭한 버튼, 이동한 페이지, 발생한 에러 상황을 재현하는 것을 지원합니다. 사용자의 유입부터 탐색, 이탈 경로까지의 여정을 재구성 해주어 사용자가 겪은 경험 저하 구간을 쉽게 식별할 수 있습니다. 뿐만 아니라, rage click(사용자가 짧은 시간 안에 같은 위치 반복적 클릭), dead click(사용자가 클릭했지만 아무런 동작도 일어나지 않은 클릭), error click(클릭 시 JavaScript 에러 등 오류가 발생하는 경우)과 같은 품질 저하 요인도 포착합니다. 실무자는 단순 수치 데이터가 아닌 실제 사용자 경험을 재현할 수 있어, 조기 문제 원인 파악을 할 수 있습니다. 이를 토대로 개발자, 운영자, 마케팅 담당자가 시나리오를 공유하고 협업한다면 서비스 개선 주기 단축과 전환율 제고를 기대할 수 있습니다. 3) 일별·시간대별 현황 분석 Zenius BRMS는 일별·시간대별로 성능 현황과 에러 분포를 분석해 시간 패턴 기반 인사이트를 제공합니다. 논리 연산 기반 필터링을 통해 특정 조건에 맞춘 분석도 가능하며 접속 환경별 데이터를 조합해 문제 발생 패턴을 정밀하게 탐지할 수도 있습니다. 예를 들어 이 분석 기능을 통해 매일 12시 모바일 환경에서 결제 오류가 잦은 것을 발견하고 점심시간 대에만 노출되는 팝업 스크립트를 점검할 수도 있습니다. 이처럼, 시간대별로 발생한 문제를 파악하는 것은 성능 저하의 주기적 원인을 식별하는 데 효과적입니다. 또한 서비스 배포 이후 영향도 분석에도 활용하여 QA(Quality Assurarance) 작업을 강화할 수 있습니다. 웹브라우저 모니터링 시스템, Zenius BRMS의 3가지 특장점 Zenius BRMS는 브라우저 성능 모니터링 기능만을 제공하는 것이 아니라, 운영자가 사용자들의 웹 브라우저 만족도 저하 원인을 직관적으로 파악할 수 있도록 설계된 사용자 친화 플랫폼입니다. 다음은 Zenius BRMS가 갖는 세 가지 주요 특장점입니다. 1)지능형 장애 감지와 알림 체계 운영자는 감시 항목별 심각도·임계치를 설정하고, 이벤트 발생 조건을 논리적으로 구성할 수 있습니다. 설정한 이벤트가 발생되면 단계별로 지정해둔 수신자에게 자동으로 알림이 보내집니다. 알림 방식으로 문자, 이메일, 푸시 앱, 음성 메일 등을 지원하며 기존 사용하시던 Slack, Teams 등의 툴과의 연동도 가능합니다. 운영자는 지능형 장애 감지와 알림 체계를 통해 장애 발생 사실을 실시간으로 파악하고 신속히 대응할 수 있습니다. 다단계 알림 구조는 체계적 보고 라인 구축을 통해 서비스 안정성을 제고합니다. 2)운영 관리 효율성과 보안 강화 Zenius BRMS에서는 수집된 데이터에 대해 어플리케이션/사용자 기준으로 개별 및 그룹 단위의 모니터링 권한을 설정할 수 있습니다. 운영 목적 또는 사용자 역할에 따라 권한을 설정할 수 있어 보안 관리에 용이합니다. 또한 브라우저 성능 수집 시의 세션 샘플링 비율, 리플레이 샘플링 비율 설정도 자유롭고 쉽게 변경할 수 있도록 돕기 때문에 운영 관리 효율성도 제고시킬 수 있습니다. 3)EMS 프레임워크 기반의 통합성과 확장성 Zenius BRMS는 EMS(Enterprise Management System) 프레임워크 환경에서 동작하기 때문에, 다른 관제 대상과 손쉽게 연계되어 통합 관리가 가능합니다. 이를 통해 운영자는 브라우저 성능뿐만 아니라 서버, 네트워크, 애플리케이션 등 다양한 관리 대상을 하나의 플랫폼에서 종합적으로 확인할 수 있습니다. 또한 모듈형 구조를 기반으로 해 확장이 용이하므로, 서비스 규모 확대나 신규 모니터링 항목 추가 시에도 유연하게 대응할 수 있습니다. 더불어 APM 성능 항목과 통합상황판(Overview)을 구성한다면, 웹 서비스 전반에 대한 문제 원인과 영향도를 신속히 파악할 수 있습니다. 이러한 EMS 기반 통합성과 확장성은 운영자의 관리 효율성을 높이고, 안정적인 서비스 품질 유지에 기여합니다. Zenius BRMS는 웹 서비스의 성능을 기록하는 것에 머무르지 않고, 실제 사용자가 느낀 속도와 반응을 데이터로 보여주며 행동 흐름까지 되짚어줍니다. Zenius BRMS는 모니터링 외에도 분석, 장애 감지, 알림 등 운영자를 위한 기능으로 안정적인 서비스 운영할 수 있도록 돕겠습니다. 기술 개발에만 힘쓰며 실제 사용자가 서비스를 얼마나 편리하게 사용하는지 고민하는 것을 놓치고 있었다면, 또는 다양한 디바이스나 지역에서의 성능 데이터 수집에 어려움을 가지고 있었다면, Zenius BRMS와 함께 서비스 품질의 한 끝을 달리해보는 것은 어떨까요? 빠르게 변하는 디지털 환경에서 사용자 경험을 놓치지 않으려는 운영자에게 Zenius BRMS 는 의지할 수 있는 기반이 될 것입니다. 2025.09.08
기술이야기 오픈소스 APM만으로 완벽한 웹 애플리케이션 관리, 가능할까? 기술이야기 오픈소스 APM만으로 완벽한 웹 애플리케이션 관리, 가능할까? 지난 글을 통해 옵저버빌리티(Observability) 중요성과 APM 차이점을 자세히 살펴보았습니다(자세히 보기). 옵저버빌리티는 APM 한계성을 극복하는 방법은 맞지만, 어느 하나가 더 나은 방법이라기 보단 조직이나 사용자 상황에 따라 적합한 선택해야 하는 것이 주요 포인트였습니다. 하지만 상용 APM 제품은 다소 높은 구매 비용으로 인해, 규모가 작은 기업의 경우 부담이 될 수 있는데요. 이 때 오픈소스 APM 솔루션이 효과적인 대안이 될 수 있는데요. 따라서 이번 시간에는 주요 오픈소스 APM 알아보고, APM 상용 제품과는 어떤 차이점이 있는지 살펴보겠습니다. │오픈소스(Open Source) 소프트웨어란? 오픈소스(Open Source)란 개발 핵심 소스 코드를 공개하여 누구나 접근하고, 수정하여, 배포할 수 있는 소프트웨어를 말합니다. 얼핏 자유 소프트웨어와 비슷하게 느껴질 수 있지만 조금 다른 의미를 가지는데요. 자유 소프트웨어는 사용자의 '자유'를 강조하지만, 오픈소스는 소스 코드의 '접근성과 협업'을 중시합니다. 대표적으로 관계형 데이터베이스인 MySQL, 웹 브라우저인 Firefox, 컨테이너 가상화 플랫폼인 Docker가 대표적인 오픈소스 소프트웨어라고 할 수 있습니다. 현재 국내 디지털플랫폼 정부 구축 정책 기조에 따르면, 오픈소스 소프트웨어는 여러가지 장점을 갖고 있는데요. 오픈소스 장점 오픈소스의 첫번 째 장점은 진입 비용이 낮다는 점입니다. 공개된 소스를 기반으로 수정과 배포가 가능하기 때문에 새로운 기반 기술을 만들어 갈 경우, 비용을 줄일 수 있습니다. 두 번째 장점은 MSA 아키텍처의 기술적 토대가 오픈소스에 기반한다는 점입니다. 최근 소프트웨어 개발 환경은 오픈소스 의존도가 높아지고 있는데요. 이는 오픈소스가 특정 벤더에 종속되지 않아 독립성을 보장한다는 점에서, 오픈소스의 가장 큰 장점이라고 할 수 있습니다. 그에 반해 오픈소스 단점도 명확한데요. 오픈소스 단점 첫 번째 단점은 상용 소프트웨어와 비교해 매뉴얼이 빈약한 경우가 많다는 점입니다. 이에 따라 실제 개발 단계에서 운영이 지연될 가능성이 높아지죠. 두 번째 단점으로는 기술 지원 체계는 오픈소스 커뮤니티에 의존하고 있기 때문에, 유지보수에 큰 어려움이 따른다는 점입니다. 물론 특정 벤더에 종속되지 않는 독립성을 취할 수 있지만, 지속적인 기술지원은 어렵죠. 그렇다면 현재 국내에서 가장 많이 사용하는 오픈소스 APM 소프트웨어는 무엇인지, 자세히 살펴보겠습니다. │오픈소스 APM 종류 오픈소스 APM 종류는 다양하지만 대표적으로 Scouter, Pinpoint, Prometheus & Grafana에 대해 알아보겠습니다. 1. Scouter 첫 번째로 소개해 드릴 오픈소스 APM은 스카우터(Scouter)입니다. 스카우터는 LG CNS에서 만든 오픈소스 APM 소프트웨어로, 자바를 사용하는 애플리케이션과 컴퓨터 시스템 성능을 모니터링합니다. 이 소프트웨어는 Window, Linux, Mac 등 다양한 운영체제(OS)에서 사용할 수 있으며, 주로 이클립스 플랫폼에서 개발되었습니다. 즉 여러 환경에서 자바 애플리케이션 데이터를 수집하고, 성능 상태를 효과적으로 할 수 있다는 점이 스카우터의 주요 기능입니다. 1-1. Scouter 아키텍처 Scouter는 주로 네 가지 주요 컴포넌트로 구성되어 있는데요. 자세히 살펴보도록 하겠습니다. Java Agent Java 기반의 웹 애플리케이션(예: Tomcat, JBoss, Resin)과 스탠드얼론 Java 애플리케이션을 모니터링하는 모듈입니다. 이 에이전트는 웹 애플리케이션 서버(WAS)에 설치되어 애플리케이션 성능 정보(예: 메소드 실행 시간, 사용자 요청 처리 시간 등)를 수집하고 Scouter 서버로 전송합니다. Host Agent 이 에이전트는 운영 체제(예: Linux, Unix, Windows 등)에 설치되어 시스템 하드웨어 리소스 사용 상태를 모니터링합니다. CPU 사용률, 메모리 사용량, 디스크 I/O와 같은 정보를 수집하여 Scouter Server로 보내주는 역할을 합니다. Scouter Server(Collector) 이 서버는 Java Agent와 Host Agent로부터 데이터를 수집해 저장합니다. 사용자는 클라이언트를 통해 이 데이터에 접근할 수 있으며, 이를 통해 애플리케이션의 성능을 모니터링하고 분석할 수 있습니다. Scouter Client 사용자는 Scouter Client를 통해 서버에 접속하여, 서버로부터 수집된 데이터를 조회할 수 있습니다. 이 클라이언트는 다양한 성능 지표를 기반으로 한 시각적인 대시보드를 제공하여, 애플리케이션과 시스템 성능 상태를 효과적으로 모니터링할 수 있게 도와줍니다. 1-2. Scouter 주요기능 출처ⓒ tistory_chanchan-father Scouter의 주요기능 중 하나는 'XLog'인데요. 이 기능은 트랜잭션 응답 시간을 시각적으로 표현하여 시스템 성능을 모니터링하는 데 유용합니다. 액티브 서비스가 종료될 때마다 XLog 차트에 점으로 나타나기 때문에, 개발자는 트랜잭션 처리 시간을 간편하게 확인할 수 있습니다. 각 점을 클릭하여 관련 트랜잭션의 자세한 정보를 얻을 수 있으며, 시스템 분석과 성능 개선 작업에도 도움을 줍니다. 2. Pinpoint 두 번째로 소개해 드릴 오픈소스 APM는 '핀포인트(Pinpoint)'입니다. 핀포인트는 네이버에서 2012년 7월부터 개발을 시작해, 15년 초에 배포한 오픈소스 APM 솔루션입니다. 핀포인트는 MSA를 위한 국산 오픈소스 APM으로 각광 받아왔습니다. 2-1. Pinpoint 아키텍처 핀포인트 아키텍처는 다음과 같은 네 가지 주요 구성요소는 이루어져 있는데요. 아래 내용을 통해 자세히 살펴보겠습니다. Agent 핀포인트의 에이전트는 애플리케이션 서버에 java-agent 형태로 추가되어, 애플리케이션 성능 데이터를 실시간으로 수집합니다. 이 에이전트는 수집한 데이터를 Collector로 전송하며, 이 과정을 통해 성능 모니터링과 문제 해결에 필요한 중요 정보를 제공합니다. Collector Agent로부터 받은 프로파일링 데이터를 수집하고 처리하는 역할을 합니다. Collector는 이 데이터를 구조화하여 빅데이터 데이터베이스인 HBase로 전송합니다. 이를 통해 데이터가 안정하게 저장되고 필요할 때 쉽게 접근할 수 있습니다. HBase Hbase는 분산 데이터베이스로서, 핀포인트 시스템에서 성능 데이터를 저장하고 검색하는 중심적인 역할을 합니다. 대규모 데이터 볼륨을 효율적으로 처리할 수 있는 구조로 설계되어 있으며, 수집된 데이터의 신속한 처리와 안정적인 저장을 보장합니다. Web UI 웹 인터페이스를 통해 사용자에게 데이터를 시각적으로 제공하는 구성 요소입니다. 이 데이터는 핀포인트 에이전트가 애플리케이션 서버에서 수집한 정보를 기반으로 생성됩니다. 이렇게 수집된 데이터는 서버를 통해 Web UI로 전송되면, 사용자는 UI를 통해 다양한 형태의 성능 지표를 조회하고 분석할 수 있습니다. 이러한 구성을 통해 네이버 핀포인트는 애플리케이션 성능 문제를 진단하고 해결하는 데 필요한 정보를 제공합니다. 2-2. Pinpoint 주요기능 그 다음으로 핀포인트의 대표적인 주요 기능에 대해 자세히 알아보겠습니다. 서버맵 이 기능은 분산 환경에서 각 노드 간의 트랜잭션 흐름을 시각적으로 표현하여, 트랜잭션 성공/실패와 응답 시간 분포를 실시간으로 모니터링할 수 있습니다. 이를 통해 시스템 부하 상태와 성능 병목 지점을 식별할 수 있죠. 콜스택 콜스택(Call Stack) 기능은 트랜잭션의 세부 실행 과정을 추적하여, 성능 문제 원인을 분석하고, 코드 최적화를 지원합니다. 이 기능은 각 콜스택에서 소요되는 시간과 발생하는 예외 상황까지 자세히 보여주어, 성능 병목 현상 진단에 도움을 줍니다. 트랜잭션 필터 사용자는 트랜잭션 필터 기능을 이용해 응답 시간이 긴 트랜잭션, 특정 사용자나 IP 주소에서 발생한 트랜잭션 등을 세부적으로 필터링하여 분석할 수 있습니다. 이는 특정 조건에 따른 트랜잭션의 세부 사항을 더 깊이 이해하는 데 유용합니다. Application Inspector 이 기능은 애플리케이션 성능 지표를 시간별/일별로 분석하며 CPU 사용률, 메모리 사용량, JVM 상태 등을 체계적으로 관리하는 기능을 제공합니다. 이를 통해 애플리케이션의 전반적인 성능 관리가 가능합니다. 3. Prometheus 세 번째로 소개해 드릴 오픈소스 APM는 '프로메테우스(Prometheus)'입니다. 프로메테우스는 관제 대상으로부터 모니터링 메트릭 데이터를 저장하고, 검색할 수 있는 시스템인데요. 무엇보다 CNCF 재단으로부터 '클라우드 네이티브에 적합한 오픈소스 모니터링'으로 각광 받아 쿠버네티스(Kubernetes, K8s) 이후 두번째로 졸업한 프로젝트입니다. 프로메테우스는 CNCF 졸업 인증서를 받은 이후 시장에서 많은 주목을 받았습니다. 구조가 간단해서 운영이 쉽고, 다양한 모니터링 시스템과 연계할 수 있는 여러 플러그인을 보유하고 있기 때문이죠. 이러한 장점은 클라우드 네이티브를 위한 기초적인 오픈소스로 각광 받게 되었습니다. 3-1. Prometheus 아키텍처 프로메테우스에서 가장 큰 특징은 에이전트(Agent)가 아닌, 메트릭(Metric)을 통해 데이터를 수집한다는 점입니다. 메트릭이란 이전 시간에도 살펴봤듯이, 현재 상태를 보기 위한 시계열 데이터를 의미합니다. 프로메테우스는 이러한 메트릭 수집을 위해 다양한 수집 도구를 사용하는데요. 좀 더 자세히 살펴보도록 하겠습니다. Application 위 아키텍처에서 수집하고자 하는 대상은, 애플리케이션으로 표현됩니다. 주로 MySQL DB과 Tomcat과 같은 웹 서버까지 다양한 서버와 WAS가 모니터링 대상이 됩니다. 프로메테우스는 이를 주로 Target System으로 표현하고 있습니다. Pulling 프로메테우스에서는 각 Target System에 대한 메트릭 데이터 수집을 풀링(Pulling) 방식을 통해 데이터를 수집합니다. 프로메테우스는 앞서 언급했듯 별도의 에이전트로 데이터를 수집하지 않습니다. Prometheus Server에서 자체적인 Exporter를 통해 메트릭 읽는 방식을 사용하죠. 보통 모니터링 시스템 에이전트는, 모니터링 시스템으로 메트릭을 보내는 푸쉬(Push) 방식을 사용합니다. 특히 푸쉬 방식은 서비스가 오토 스케일링 등과 같이 환경이 가변적일 경우 유리한데요. 풀링 방식의 경우 모니터링 대상이 가변적으로 변경될 경우, 모니터링 대상의 IP 주소를 알 수 없기 때문에 정확한 데이터 수집이 어려워집니다. Service Discovery 이처럼 정확한 데이터 수집을 해결하기 위한 방안이 서비스 디스커버리(Service Discovery) 방식입니다. 서비스 디스커버리는 현재 운영 중인 대상 목록과 IP 주소를 동적으로 수집하는 프로세스입니다. 예를 들어 file_sd, http_sd 방식부터 디스커버리 전용 솔루션인 Consul을 사용하죠. Exporter Exporter는 모니터링 대상 시스템에서 데이터를 수집하는 역할을 합니다. 별도의 에이전트는 아니지만, 에이전트와 비슷하게 데이터를 수집하는 역할을 합니다. HTTP 통신을 통해 메트릭 데이터를 수집하며, Exporter를 사용하기 어려울 경우 별도 Push gateway를 사용합니다. Prometheus Server 프로메테우스 서버는 데이터 수집, 저장, 쿼리를 담당하는 중앙 구성 요소입니다. HTTP 프로토콜을 사용하는 것이 특징이며, Exporter가 제공하는 HTTP 엔드포인트에 접속해 메트릭 데이터를 수집합니다. Alert Manager 사용자에게 알람을 주는 역할을 담당합니다. Prometheus는 타 오픈소스 모니터링 솔루션과 달리 Alert Manager UI 기능을 제공하여 일부 제한된 데이터를 시각화할 수 있습니다. 하지만 시각화 기능이 제한적이므로, 보통 Grafana라는 오픈소스 대시보드 툴을 사용하여 UI를 보완합니다. 3-2. Grafana '그라파나(Grafana)'에 좀 더 자세히 설명한다면, 데이터 분석을 시각화하기 위한 오픈소스 대시보드 도구입니다. 다양한 플러그인을 이용해 프로메테우스와 같은 모니터링 툴과 *그라파이트(Graphite)1, *엘라스틱서치(Elasticsearch)2, *인플럭스DB(InfluxDB)3 와 같은 데이터베이스와 연동하여 사용자 맞춤형 UI를 제공합니다. 특히 방대한 데이터를 활용해 맞춤형 대시보드를 쉽게 만들 수 있는 것이 그라파나의 큰 장점이죠. *1. Graphite: 시계열 데이터를 수집하고 저장하며, 이를 그래프로 시각화하는 모니터링 도구 *2. Elasticsearch: 다양한 유형의 문서 데이터를 실시간으로 검색하고 분석하는 분산형 검색 엔진 *3. InfluxDB: 시계열 데이터의 저장과 조회에 특화된 고성능 데이터베이스 그라파나의 주요 특징은 플러그인 확장을 통한 데이터 시각화와 템플릿 지원으로, 다른 사용자 대시보드 템플릿을 쉽게 가져와 사용할 수 있다는 점입니다. 이처럼 Promeheus 장점은 Exporter를 통한 다양한 메트릭 데이터 수집과 3rd Party 솔루션과 연계가 수월하다는 점입니다. 오픈소스로 IT 인프라를 구성하는 기업의 경우 Prometheus와 Grafana를 연계하여, 서비스 운영현황을 모니터링 할 수 있습니다. 지금까지 오픈소스 APM가 무엇이고, 각각의 아키텍처와 주요 기능은 무엇인지 살펴보았는데요. 그렇다면 상용 APM 제품과, 오픈소스 APM는 어떤 차이점이 있을까요? │상용 APM 제품 vs 오픈소스 APM 제품 앞에서 소개해 드린 오픈소스 APM 중, 대표적으로 프로메테우스와 핀포인트를 상용 APM 제품과 비교해 보겠습니다. Prometheus vs 상용 APM 제품 우선 프로메테우스를 대표하는 장점은 유연한 통합성입니다. 마이크로서비스가 대세 기술로 자리 잡으면서, 인스턴스를 자주 확장하거나 축소하는 것이 자유로운 요즘인데요. 만약 이 작업을 수동으로 관리한다면 매우 어려울 수 있습니다. 하지만 프로메테우스를 사용하면 이런 문제를 해결할 수 있죠. 프로메테우스는 쿠버네티스와 같은 여러 서비스 디스커버리 시스템과 통합되어, 쿠버네티스 클러스터 내의 모든 노드와 파드에 발생하는 매트릭을 자동으로 수집할 수 있습니다. 이러한 기능은 마이크로서비스 환경에서 효율적으로 모니터링 할 수 있습니다. 하지만 한계점도 있는데요. 바로 실시간 데이터 확인이 어렵다는 점입니다. 프로메테우스는 풀링(Pulling) 주기를 기반으로 메트릭 데이터를 수집하기 때문에, 순간적인 스냅샷 기능이 없습니다. 수집된 데이터는 풀링하는 순간 스냅샷 데이터라고 볼 수 있죠. 이러한 단점은 APM에서 일반적으로 지원하는 실시간성 트랜잭션 데이터를 대체하기 어렵습니다. 반면에 상용 APM 제품은 어떨까요? 대표적으로 Zenius APM 사례를 통해 살펴보겠습니다. Zenius APM은 에이전트가 자동으로 메트릭을 수집하여 서버로 전송하여, 데이터를 실시간으로 처리할 수 있습니다. 또한 에이전트가 푸쉬(Push) 방식이기 때문에, 데이터의 지연이 풀링 방식에 비해 적고 데이터가 더 정확하게 수집되죠. 또한 Raw Data 기반의 실시간 과거 데이터를 통해 정밀한 장애 원인 분석이 가능합니다. 과거 시점 스냅샷 기능도 있어 문제 발생 시점을 정확히 파악하여, 문제 해결 시간을 단축시킬 수 있죠. Pinpoint 장단점 vs 상용 APM 제품 그 다음으로는 핀포인트를 대표하는 장점에 대해 알아 보겠습니다. 핀포인트 장점으로는 클라우드 환경에서 뛰어난 가시성을 보여준다는 점입니다. 클라우드에서의 웹 애플리케이션 서버(WAS)는 유연성과 확장성이 뛰어나지만, 복잡한 시스템 구조로 인해 모니터링이 어려울 수 있는데요. 핀포인트는 이러한 환경에서, 각 가상 서버의 성능을 실시간으로 파악하고 문제를 신속하게 진단하는데 큰 도움을 줍니다. 그에 반해 핀포인트에 단점은 다양한 기능이 부족합니다. 핀포인트는 JVM 기반 데이터의 모니터링이 일부 제한되는데요. 대시보드의 'Inspector'와 같은 일부 기능이 지원되지 않아, 이용에 어려움이 있습니다. 또한 다수 트랜잭션이 동시에 실행될 때 특정 트랜잭션이 오래 걸리거나 에러가 발생할 경우, 그 원인을 파악하기 어렵습니다. 이는 세부적인 콜백 정보를 충분히 제공하지 않았기 때문이죠. 그렇다면 상용 APM 제품은 어떨까요? 이번에도 Zenius APM를 통해 자세히 살펴보겠습니다. Zenius APM은 다양한 트랜잭션 모니터링 기능을 제공하는데요. 이를 통해 사용자는 트랜잭션 성능을 실시간으로 파악하고, 잠재적 문제를 빠르게 진단할 수 있습니다. 또한 이 시스템은 대량으로 동시 접속자를 대량으로 관리할 수 있어, 피크 타임에 발생할 수 있는 성능 저하를 사전에 감지하고 대응할 수 있도록 지원합니다. 비교표 구분 Zenius APM Prometheus Pinpoint Scouter 기술지원 벤더 지원을 통한 빠른 초기 설정, 기술지원 용이 오픈소스 기반의 기술지원 불가로 초기 학습 필요 오픈소스 기반의 기술 지원 불가로 초기 학습 필요 오픈소스 기반의 기술 지원 불가로 초기 학습 필요 사용자 인터페이스 실시간 트랜잭션 처리, 액티브 서비스 모니터링, 동시 접속 사용자 수 등, 사용자 정의 실시간 모니터링 상황판 구성 Grafana 플러그인 연계로 다양한 컴포넌트 모니터링 가능 토폴로지 일부 모니터링 불가, 제한적으로 사용자 동시 접속자 수 모니터링 가능, 사용자 정의 기반 모니터링 불가 기능 제한에 따른 간소화된 UI 제공, 사용자 정의 기반 모니터링 불가 컨테이너 모니터링 가능 가능 가능 불가 쿠버네티스 모니터링 가능 가능 불가 불가 연관 인프라 정보 모니터링 연관된 WAS 서버, DB서버, DB확인, 해당 인프라 상세 정보 제공 불가 재한적으로 연관 인프라 모니터링 제공 불가 Raw Data 과거 시점 재현 초 단위 데이터를 기준으로 장애 발생시점 등 과거 상황을 그대로 재현함 불가 불가 불가 리포팅 사용자 정의 기반 리포팅 서비스 제공 써드 파티를 이용한 제한적인 리포팅 기능 제공 불가 불가 이번 시간에는 주요 오픈소스 APM와 상용 APM 차이점을 살펴보았습니다. 각 솔루션은 분명한 장단점을 갖고 있으며, 모든 상황에 완벽한 솔루션은 없습니다. 그러나 여기서 주목해야 할 것은, APM의 핵심이 '트랜잭션을 얼마나 효과적으로 모니터링할 수 있는가'라는 점입니다. 이 측면에서 오픈소스 APM은 한계가 있으나, 상용 APM 제품은 이를 효과적으로 수행할 수 있습니다. 물론 비용 면에서 오픈소스 APM와 비교해, 상용 APM 제품이 부담스러울 순 있습니다. 하지만 트랜잭션 모니터링 관리의 중요성을 고려한다면, 이러한 투자는 가치가 있습니다. 더 나아가 심층적인 실시간 데이터 모니터링, 신속한 데이터 처리, 전문적인 기술적인 기술 지원, 보다 복잡한 시스템 환경에서 효과적인 트랜잭션 관리를 우선시 한다면 Zenius APM 제품이 더더욱 적합할 것입니다. ?더보기 Zenius APM 더 자세히 보기 ?함께 읽으면 더 좋아요 • APM에서 꼭 관리해야 할 주요 지표는? • APM의 핵심요소와 주요기능은? • 옵저버빌리티 vs APM, 우리 기업에 맞는 솔루션은? 2024.07.26
기술이야기 옵저버빌리티(Observability) vs APM, 우리 기업에 맞는 솔루션은?! 기술이야기 옵저버빌리티(Observability) vs APM, 우리 기업에 맞는 솔루션은?! 지난 글을 통해 웹 애플리케이션을 전반적으로 모니터링하고 관리하기 위한 좋은 도구인, APM의 핵심요소와 기능에 대해서 알아봤습니다(지난 글 보기). APM은 분명 좋은 도구이지만 문제 원인이 애플리케이션, 웹, WAS, DB가 아닌 특정한 시스템 오류이거나 클라우드 네이티브 환경에서의 장애일 경우 문제 발생 원인을 명확히 밝히기 어려울 수 있습니다. 따라서 이번 시간에는 APM의 한계성은 무엇이고, 이를 보완하기 위한 방법은 무엇인지 자세히 살펴보겠습니다. │APM 한계성 불과 얼마 전까지만 해도 예상치 못한 장애를 탐지하고 분석하는 것은, 기존 APM만으로 충분했었습니다. 기존에는 모놀리식 구조로 되어있어 애플리케이션이 적은 수로 구성되어 있었고, Web-WAS-DB가 모두 단일 구조로 구성되어 있었기 때문입니다. 하지만 현재 대다수 기업들은 MSA 환경에서 서비스를 구축하고, DevOps 구조로 업무를 진행하는 경우가 많습니다. 즉 클라우드 네이티브 환경에서는 기존 모놀리식 구조의 APM의 한계가 하나둘씩 보이기 시작한 것이죠. 이러한 이유로 클라우드 네이티브 방식에는 서비스 장애 원인을 분석하기 위한 새로운 모니터링 툴이 필요했습니다. 이때 등장하는 것이 바로 옵저버빌리티(Observability)입니다. │Observability란? 그렇다면 Observability란 무엇일까요? 옵저버빌리티는 IT 인프라에 대한 근본적인 장애 원인을 분석하기 위한 방법론입니다. 관찰 가능성이라고 표현되기도 하죠. Obsevability는 비교적 최근에 사용한 용어이지만, 옵저버빌리티를 위한 고민은 오래전부터 지속되어왔습니다. 시스템이 내가 의도한 대로 작동하고 있을까? 예상치 못한 장애 탐지와 장애 근본 원인은 어떻게 분석할 수 있을까? IT 인프라 운영 환경에 문제가 발생했을 때, 문제 식별을 위해 필요한 객관적인 지표는 어떻게 도출할 수 있을까? 하지만 소프트웨어 애플리케이션에서 Observability는, 위와 같은 고민이 발생하거나 겪어보지 못했던 현상이 생길 때 이를 이해하고 설명할 수 있는 지표를 분석해 줍니다. │Obsevability의 등장배경 및 필요성 앞에서 옵저버빌리티가 무엇인지 살펴봤는데요. 이어서 Observability가 등장하게 된 이유와 필요성에 대해 자세히 살펴보겠습니다. MSA 전환에 따른 복잡성 증가 옵저버빌리티가 등장하게 된 첫 번째 이유는, 모놀리식 아키텍처에서 MSA 환경으로 전환함에 따라 복잡성이 증가했기 때문입니다. 우선 그림을 통해 자세히 살펴보겠습니다. [그림(왼)]은 모놀리식 아키텍처를 나타내는데요. 애플리케이션의 모든 구성 요소가 하나의 인프라로 통합되어 있는 형태입니다. 배포가 간단하며, 확장성이 쉽고, E2E 테스트가 용이하다는 장점이 있습니다. 하지만 조그마한 수정 사항이 있으면, 다시 구성 환경을 빌드하고 배포해야 한다는 단점이 있습니다. 또한 일부 오류가 전체 아키텍처에 영향을 미친다는 치명적인 단점도 존재하죠. 반면 [그림(오)]에 해당하는 MSA(Micro Service Architecture)는 하나의 큰 애플리케이션을 여러 개의 작은 애플리케이션으로 쪼개어, 변경과 조합이 가능합니다. 작은 서비스의 독립적 배포라는 강력한 장점을 앞세워 Netflix, PAYCO와 같은 다양한 기업들이 앞다투어 MSA를 받아들였습니다. 여기서 문제는 MSA로 변화함에 따라 통합 테스트나 E2E 테스트 검증이 필요해졌는데요. 이처럼 여러 서비스의 API를 검증해야 하므로, 복잡성이 증가하고 많은 시간과 비용이 소모되었습니다. 무엇보다 각 서비스 별로 자체적인 데이터베이스가 있어, 트랜잭션에 대한 파악이 어려워지기도 했죠. 따라서 기존 APM이 담당하는 트랜잭션 모니터링의 복잡성은 더욱 증가했고, Observability의 필요성이 대두되었습니다. DevOps와 클라우드 네이티브 환경으로서의 전환 옵저버빌리티가 등장하게 된 두 번째 이유는, DevOps와 클라우드 네이티브 환경으로 전환하기 위해 필요한 도구이기 때문입니다. DevOps의 핵심은 소프트웨어의 개발(Deployment)과 운영(Operation)을 분리하는 것이 아닌, 하나로 통합된 업무 처리 방식으로 진행됩니다. 이때 관리하는 서비스 전반에 대한 가시성이 충분히 확보되지 않으면, DevOps 조직은 근본적인 원인을 찾는 데 어려움을 겪게 됩니다. 이러한 어려움을 해결하기 위해서는 서비스를 구성하는 아키텍처부터 트랜잭션까지 가시성이 확보되어야 합니다. 이를 통해 DevOps의 목표인 지속적인 개발과 운영의 통합을 만들어낼 수 있죠. 또한 Observability는 클라우드 네이티브 환경으로 전환하기 위한 필수 조건입니다. 기업에서 운영 중인 서비스/IT 인프라가 클라우드 네이티브 환경으로 전환되면서, 이전에 발생하지 않았던 모든 장애 가능성에 대한 인지를 위해 Observability가 선행되어야 합니다. │Observability와 Monitoring 차이점 그렇다면 기존의 모니터링(Monitoring)과 옵저버벌리티(Observability)의 차이점은 무엇일까요? 기존의 모니터링 역할은 IT 인프라의 '정상 작동 확인'을 위한 도구 역할에 초점이 맞춰져 있었습니다. 모니터링 구성 요소인 대시보드와 사용자 알람을 통해 가시성을 확보하고, 장애를 쉽게 감지할 수 있었죠. 즉 모니터링은 인프라 성능 지표, 구성 관리, 사용자 알람에 주 목적을 둔 IT 운영 담당자에 포커스를 맞춘 도구입니다. Observability는 기존 모니터링이 맡는 알람(Alerting), 메트릭(Metric) 외에도 로그(시스템, 애플리케이션), 트레이스, 디버깅과 같은 작업이 가능합니다. 이를 통해 앞으로 발생할 수 있는 장애를 미리 예측하고, 발생한 장애에 대한 근본적인 원인을 찾아내는 데 초점이 맞춰져 있습니다. │Observability 확보를 위한 핵심 구성 요소 옵저버빌리티는 앞서 언급했듯이 메트릭(Metric), 로깅(Logging), 트레이싱(Tracing) 등 작업이 가능한데요. 좀 더 자세히 살펴보겠습니다. Metric 모니터링 분야에서 Metric(메트릭)이란, 인프라 혹은 서비스 성능과 상태를 나타내는 지표입니다. 여기서 중요한 점은 단순히 현재 상태를 보기 쉽게 표현하는 것에서 더 나아가 '시계열 데이터' 형태로 변화하는 데이터를 보여줘야 합니다. 예를 들어 CPU 사용률, 메모리 사용률, 스레드 사용률과 같이 시간이 지남에 따라 어떻게 변화하는지 효율적으로 보여줄 수 있어야 하죠. 또한 메트릭은 여러 AI 분석툴과 오픈소스와 결합하여, 직관적인 파라미터를 통해 시계열 데이터의 다양한 패턴을 자동 감지할 수 있어야 합니다. 운영자와 개발자에게 필요한 리소스를 선택할 수 있도록 성능 예측하는 지표도 필요합니다. Logging Logging(로깅)은 운영 중인 시스템과 애플리케이션에서 발생하는 다양한 이벤트와 에러 등을 기록하는 과정입니다. Observability는 여기서 더 나아가 클라우드 시스템의 모든 로그를 수집하여, 해당 로그를 통해 문제 원인을 식별할 수 있어야 합니다. 물론 각 로그 스트림은 단일 인스턴스에 대한 이벤트를 알려주기 때문에, 마이크로 서비스 환경에서 전체적인 문제 원인을 파악하기 어려울 수 있습니다. 하지만 중앙 집중식 로깅을 사용하면, 애플리케이션 로그를 한곳에 저장할 수 있습니다. 이를 통해 여러 서비스로 구성된 MSA 환경에서 로그를 효과적으로 검색하고 모니터링할 수 있죠. 이러한 작업을 하기 위해서 ELK Stack1 과 같은 로그 수집 활용 도구가 필요한데요. 이 도구는 로그 관리를 단순화화여, 전체 시스템 문제를 더 쉽게 분석할 수 있도록 도와줍니다. *ELK Stack1: Elastic Search. Logstash, Kibana의 약자로 데이터를 수집하고 분석하는 도구 모음 Tracing 트레이싱은 애플리케이션 실행 정보를 기록하는 '특별한 로깅' 방식을 의미합니다. 사실 로깅과 트레이싱을 구분하는 것에 큰 의미는 없습니다. 하지만 Observability 관점에서 트레이싱은, 전체 로그 중 문제를 일으키는 특정 로그들을 시각화하고 이를 선택적으로 관찰하는데 의미가 있습니다. Debugging Observability에서 말하는 디버깅은, 시스템과 서비스 성능을 확인하고 검사할 수 있는 다양한 도구입니다. 장애 원인을 찾을 경우 그 장애 원인뿐만 아니라, 연관관계를 가진 여러 인프라와 애플리케이션을 함께 보여줄 수 있어야 하죠. RUM RUM은 Real User Monitoring 약자로, 사용자의 인터랙션을 추적하여 웹사이트나 애플리케이션 성능을 실시간으로 모니터링하는 기술입니다. 옵저버빌리티는 앞서 언급했듯, 더 이상 IT 인프라 운영자를 위한 도구가 아닙니다. DevOps를 위한 통합적인 가시성을 제공하는 도구이죠. 따라서 운영자와 개발자를 위한 '실제 사용자 관점'에서 모니터링을 제공해야 합니다. 이처럼 옵저버빌리티 시스템은 애플리케이션의 전체적인 상태를 깊이 있게 파악하고, 문제 원인을 분석하는 데 중점을 두는 접근 방식입니다. 그렇다면 애플리케이션 성능 관리 시스템인 APM 도구와는 어떤 차이점이 있을까요? │APM과 Observability 차이점 어떻게 보면 APM과 Observability는 비슷해 보이지만, 문제 원인과 인프라를 분석하는 시각에 따라서 다양한 차이점을 지니고 있습니다. 우선 첫 번째 차이점으로는 모니터링 목적 대상에 따른 차이가 있습니다. APM은 E2E(End-to-End) 성능 구간에 주목합니다. WEB-WAS-DB에 걸친 이 과정을 실제 서비스 사용자의 *액티브 서비스2에 초점을 맞춰, 애플리케이션 성능을 분석하고 모니터링하죠. *액티브 서비스: 현재 시점에서 사용자에게 제공되고 있는 상태 Observability는 APM에서 주목하는 E2E보다, 더 많은 범위를 모니터링합니다. 시스템 인프라, WAS, DB에 대한 정밀 성능 분석과 장애 감지는 물론. 운영 중인 인프라와 서비스를 통합하여 문제 원인을 찾는 데 집중합니다. [그림] Zenius-APM 사용자 정의 실시간 모니터링 상황판 따라서 두 번째 차이점으로는, 측정하는 지표에도 많은 차이가 있는데요. APM은 사용자 요청에 따른 응답 시간과 응답 분포, 액티브 서비스 상태, 트랜잭션 처리율, 이슈 중심으로 '사용자 요청' 관점에 따라 주요 지표를 확인할 수 있습니다. Observability는 사용자의 요청 관점이 아닌, 발생할 수 있는 '모든 이벤트 지표'에 주목합니다. 보다 더 전방위적인 모니터링이 가능하죠. 또한 옵저버빌리티는 기존 APM에서 발생하는 주요 장애 원인뿐 아니라, 예측하지 못한 장애를 객관적인 지표로 보여줍니다. 정리한다면 인프라와 서비스를 분석하고 장애를 탐지한다는 점에서 APM과 Observability는 동일한 역할을 갖지만, 결국 사용자가 무엇을 더 초점에 맞추느냐에 따라 사용 목적은 아래와 같이 달라질 수 있습니다. 우리 기업은 Observability가 맞을까, APM가 맞을까? APM Type Observability Type 애플리케이션 성능 최적화가 필요한 경우 애플리케이션 코드 내의 문제를 식별하고 해결하는 데 중점을 둘 경우 MSA 환경이 아닌 모놀리식 아키텍처에서 서비스를 구성하고 있는 경우 MSA 환경에서의 분산 시스템을 통해 서비스를 구성하는 경우 단순한 애플리케이션 성능을 넘어 전체 IT 인프라 환경에 대한 통찰력 확보가 필요한 경우 인프라 운영자, 개발자, 보안담당자 모두가 통합 모니터링 환경이 필요한 경우 이번 글에서는 옵저버빌리티의 중요성과 APM의 차이점을 자세히 살펴보았습니다. 결론적으로 옵저버빌리티와 APM 중 어느 하나를 더 좋다고 할 수 없으며, 각 조직의 요구사항과 사용 편의성에 맞춰 선택해야 합니다. 그러나 점점 복잡해지는 IT 환경을 고려한다면, 옵저버빌리티를 기반으로 한 Zenius-APM과 같은 도구를 활용하여 좀 더 효율적으로 웹 애플리케이션을 관리해 보는 것은 어떨까요? ?더보기 Zenius APM 더 자세히 보기 ?함께 읽으면 더 좋아요 • APM에서 꼭 관리해야 할 주요 지표는?! • APM의 핵심요소와 주요기능은?! 2024.07.24
기술이야기 APM의 핵심요소와 주요기능은?! 기술이야기 APM의 핵심요소와 주요기능은?! 지난 글을 통해서 APM의 필요성과 '트랜잭션' 현황 파악의 중요성에 대해서 알아봤습니다. 이번 시간에는 트랜잭션을 어떤 방식으로 추적하는지 APM 동작 과정을 통해 살펴보고, APM 시스템을 최적화하는 핵심 요소와 기능은 무엇인지 자세히 알아보겠습니다. │APM 동작 과정 APM은 Client-Web Application-DBMS와 같은 구성요소 사이에 트랜잭션1을 추적할 수 있어야 합니다. 이를 통해 웹 서비스 전반적인 성능을 모니터링하고, 문제가 발생했을 때 원인을 신속하게 진단할 수 있기 때문인데요. 그렇다면 각 단계별로 APM가 어떻게 트랜잭션1을 추적하는지 좀 더 자세히 살펴보겠습니다. *트랜잭션1: 쉽게 말해 데이터베이스에 실행되는 작업 단위를 의미합니다. 트랜잭션은 작은 여러 작업들을 하나의 그룹으로 묶어 처리하기 때문에, A라는 작업에서 일부가 성공했다고 하더라도 하나의 트랜잭션 처리가 비정상적으로 종료되면 모두 실패한 것이죠. 클라이언트(Client) 웹 서비스 사용자가 이용하는 디바이스 또는 브라우저입니다. 클라이언트에서 발생하는 요청과 응답을 추적하여 페이지 로딩 시간, 사용자 활동, 에러 발생 등을 파악할 수 있습니다. 이 정보들을 통해 사용자 경험을 분석하고 개선하는데 기초 자료로 사용되죠. 웹서버(Web Server) 클라이언트 요청을 받아, 적절한 답을 생성하여 보내는 서버입니다. 이 단계에서 APM은 서버(예: Apache, Nginx) 로그와 성능 지표를 분석하여 요청 처리 시간, 데이터 전송량, 서버 오류 등 정보를 모니터링하고 기록합니다. 웹 애플리케이션 서버(WAS) WAS는 Web Application Server의 약자로, 애플리케이션에서 사용하는 데이터를 저장하고 관리하는 시스템입니다. 이 단계에서 APM은 데이터베이스 성능을 모니터링하여 DB 쿼리 실행시간과 DB 서버 부하 등을 측정하고, 성능 문제를 파악하는 데 도움을 줍니다. WAS 종류로는 WebLogic, Websphere, JEUS, Tomcat 등이 있습니다. 데이터베이스(DBMS) DBMS(Database Management System)는 기업에서 발생하는 모든 데이터를 저장하고 관리하는 소프트웨어입니다. 이 단계에서는 DB 성능 관리 솔루션을 통해, 애플리케이션 개발자가 작성한 SQL 튜닝과 DBMS 소프트웨어 병목 현상 등을 모니터링할 수 있습니다. 특히 데이터베이스는 IT 인프라에서 필수 요소입니다. 기업 서비스 대부분이 데이터베이스에 접근하여, 데이터를 조회하고 수정해야 하기 때문에 DB 관리는 매우 중요하다 할 수 있죠. 이처럼 APM은 Client-Web Server-Was-DB 각 구성요소 사이에 있는 트랜잭션을 추적하여 웹 서비스 성능을 평가할 수 있습니다. 그다음으로는 APM 시스템 전체적인 성능을 평가하고 최적화하는 핵심 요소는 무엇인지 살펴보겠습니다. │APM 성능을 최적화하는 핵심요소 APM 시스템은 크게 5가지 요소를 통해, 전체적인 성능을 최적화할 수 있습니다. 우선 Resource는 시스템 성능과 안정성을 평가하는데 중요한 역할을 하며, DataBase는 SQL 쿼리의 실행 계획이나 DB 연결 상태와 같은 세부 정보를 분석하여 데이터베이스 성능을 최적화합니다. Alert는 모니터링된 데이터에서 문제를 식별하고 사용자나 운영자에게 경고를 보내며, User 경험과 행동을 추적하여 서비스 품질을 평가합니다. WAS는 서버 내부에서 발생하는 이벤트를 모니터링하고, 서버 성능을 평가하는 역할을 합니다. Resource-Database-Alert-User-WAS 이 5가지 요소는 APM 아키텍처를 구성하는 핵심 요소이기도 한데요. 다음 내용을 통해 APM 아키텍처를 좀 더 자세히 살펴보겠습니다. │APM 아키텍처 APM 아키텍처는 Agent를 통해 WAS(관리대상) 실시간 데이터를 수집하고 → Manager에서 데이터를 수집/분석/가공 한 뒤 → 다양한 UI로 시각화합니다. 특히 꼭 기억해야 할 APM 아키텍처 핵심 3가지는 에이전트, 데이터베이스, 통신방식인데요. 좀 더 자세히 알아보겠습니다. 에이전트 APM 관리대상(예시: WebSphere, WebLogic, JBoss, JEUS, Tomcat 등)에 Agent라고 불리는 소프트웨어를 설치합니다. 그다음 모니터링 대상 시스템(WAS)에서 데이터를 수집하죠. 에이전트는 애플리케이션 내부 동작을 모니터링하고, 성능 데이터를 수집하는 역할을 합니다. 이러한 데이터를 활용하여 에이전트는 서비스 구간별 현황과 초당 처리 건수, 서비스 응답시간, 동시 접속자 수, 트랜잭션 거래량, 에러 등 상세한 지표를 제공해 주죠. 데이터베이스 수집된 데이터를 보관하고 분석하기 위해서는, 데이터베이스(DataBase)를 사용합니다. 이 데이터베이스는 대규모 데이터를 저장하고 관리하는 구조여야 하며, 분석하고 보고서를 생성하는데 필요한 데이터를 효율적으로 쿼리 할 수 있어야 합니다. 통신방식 APM 시스템은 보통 다양한 통신 프로토콜(Communication Protocol)을 사용하여, 데이터를 수집하고 전송합니다. 예를 들어 웹 소켓(WebSocket)을 통해 실시간 데이터를 전송하거나 http(s)를 사용하여 주기적으로 데이터를 전송하는 방식이 일반적입니다. 그다음으로는 APM은 어떤 주요 기능을 제공하는지 알아보도록 하겠습니다. │APM 주요기능 APM은 대표적으로 웹사이트와 소프트웨어 애플리케이션 및 서비스에서, 성능을 모니터링하고 분석하는 기능이 있는데요. 좀 더 자세한 APM 기능을 살펴보겠습니다. 실시간 성능 통합 모니터링 [그림] Zenius-APM 토폴로지 맵 APM은 Tomcat, Jboss, WebLogic, JEUS 등 다양한 애플리케이션 서버(WAS) 환경에서 실행되는 애플리케이션 통합 모니터링을 제공합니다. 시스템 간의 처리 성능과 현황 정보는 토폴로지 뷰를 통해 시각적으로 파악할 수 있죠. [그림] Zenius-APM 모니터링 상황판 또한 각 서버의 트랜잭션 처리량, 처리 속도, 자원 사용량을 실시간으로 분석하여 시스템 성능을 관리합니다. 특정 트랜잭션 실행 경로를 추적하고 분석하여, 성능 병목 현상도 식별할 수 있습니다. [그림] Zenius-APM 모니터링 서비스 응답분포 APM은 서비스 응답 분포도를 제공하여, 비정상적인 트랜잭션을 집중적으로 조회하고 분석할 수 있습니다. 장애관리 APM은 메모리 누수, 서비스 응답 지연과 같은 장애 원인을 실시간으로 추적하고 분석하는 기능을 제공합니다. Rawdata를 기반으로 장애 발생 시점을 재현하여, 문제의 근본 원인을 파악하는 데 도움을 주죠. 또한 자동 이벤트 처리는 장애 관리 규칙(Rule)에 따라 이루어지며, 문제 발생 시에는 사용자에게 즉각적인 알림을 제공합니다. 성능 분석과 통계 APM은 애플리케이션 성능을 다양한 지표(예: 성능비교, 기간비교, 증설 필요성, 시간대별 등)를 통해 분석하고, 여러 파일 형식의 보고서로 제공합니다. 또한 애플리케이션 성능 문제와 SQL 쿼리 간의 연관성을 분석하여 성능 개선 방안을 제안합니다. 다양한 환경 지원 레거시 시스템에서 클라우드 인프라에 이르기까지, APM은 다양한 IT 환경을 효과적으로 지원합니다. 또한 WAS 중심 성능 관리와 MSA(마이크로 서비스 아키텍처) 환경 모니터링을 가능하게 하는 기술을 제공하죠. 이번 시간에 알아본 내용처럼 APM은 다양한 애플리케이션 서버(WAS) 환경에서 실행되며, 트랜잭션 성능을 관리하는 통합 모니터링 제품입니다. Zenius-APM와 같이 다양한 WAS 환경에서의 통합 모니터링과 트랜잭션 처리 현황을 체계적으로 파악할 수 있는 APM을 통해, 효과적으로 웹 애플리케이션을 관리해 보세요! 2024.07.19
기술이야기 APM에서 꼭 관리해야 할 주요 지표는? 기술이야기 APM에서 꼭 관리해야 할 주요 지표는? 웹 애플리케이션, 모바일 애플리케이션, 데스크탑 소프트웨어, 그리고 클라우드 기반 서비스까지 애플리케이션 서비스의 범위는 점점 더 광범위해지고 있습니다. 온라인 쇼핑, OTT, 게임, 금융, SNS, 기업 ERP 서비스 등 거의 모든 산업 분야에서 애플리케이션을 활용하는 가운데 애플리케이션 서비스가 원활하게 제공되지 않으면 기업은 고객의 신뢰를 잃고, 브랜드 이미지와 매출에도 큰 타격을 입게 됩니다. 이에 따라서 애플리케이션의 성능을 지속적으로 모니터링하고 문제를 신속하게 감지하고 해결하게 해주는 APM(Application Performance Monitoring)의 중요성이 빠르게 커지고 있습니다. 그렇다면 구체적으로 APM이 왜 필요한지와 APM을 통해 꼭 살펴봐야 하는 지표들에 대해서 자세히 알아보겠습니다. │APM(Application Performance Monitoring)의 필요성 앞서 언급한 것처럼 APM은 애플리케이션의 성능을 추적하여, 사용자 만족도를 높이기 위한 필수적인 도구입니다. APM이 왜 점점 더 중요해졌는지 좀 더 구체적으로 살펴볼게요. 시스템 복잡성 관리 현대 IT 환경은 마이크로서비스(MSA), 클라우드, 서버리스 컴퓨팅 등 다양한 기술을 복합적으로 사용합니다. 이로 인해 시스템은 점점 더 복잡해지고, 전통적인 모니터링 도구로는 파악하기 어려운 문제가 발생할 수 있는데요. APM은 이러한 복잡한 시스템에서 발생하는 성능 저하나 오류를 정확히 파악하고, 문제의 근원지를 신속하게 찾아내는 데 도움을 줍니다. 예를 들어 대형 은행이 APM을 통해 실시간 거래 처리 시스템의 성능 저하를 조기에 발견하고 해결하여, 고객 불편을 최소화한 사례가 있습니다. 비즈니스 효율성 및 비용절감 오늘날 기업들은 웹사이트, 모바일 앱, 클라우드 서비스 등 다양한 디지털 플랫폼을 원활하게 운영하기를 원합니다. 동시에 어떻게 하면 이 많은 플랫폼들을 효율적으로 운영하면서, 비용을 절감할지 고민하는데요. APM은 이러한 고민을 해결해 줍니다. 예를 든다면 APM은 클라우드 환경에서 비효율적으로 사용되는 리소스를 식별하고, 필요한 경우에만 리소스를 확장하거나 축소할 수 있도록 지원합니다. 이를 통해 클라우드 비용을 절감하면서도, 시스템 성능을 유지할 수 있게 도와주죠. 고객 경험 개선 다양한 웹/모바일 서비스들이 생겨나면서 소비자들은 점점 더 빠르고, 안정적이며, 개인에게 특화된 맞춤형 서비스를 원하고 있습니다. 애플리케이션의 성능을 개선할수록 사용자 만족도 역시 높아지죠. 만약 소비자 입장에서 필요한 물건을 구매하려고 할 때 버그가 발생하여 구매페이지가 넘어가지 않거나, 결제 과정에 문제가 생긴다면, 고객은 구매를 포기할 수도 있습니다. 이러한 상황에서 APM은 웹 애플리케이션의 성능을 실시간으로 감시하고 문제를 빠르게 해결해 줍니다. 이를 통해 사용자 만족도를 높이고 기업의 잠재적인 매출을 방지할 수 있습니다. 이번엔 개발자/운영자의 관점으로 보는 APM의 필요성을 살펴보겠습니다. 개발자: 개발자는 APM을 통해 애플리케이션의 성능 저하를 유발하는 코드 문제점을 상세히 파악합니다. 예를 들어 느린 데이터베이스 쿼리라던지, 비효율적인 로직, 예기치 않은 오류나 버그 등을 실시간으로 개선합니다. 운영자: 웹/모바일 서비스에 성능 저하나 장애가 발생할 경우 운영자는 APM을 사용하면 어떤 부분이 원인인지 신속하게 진단하고, 필요한 조치를 취할 수 있습니다. 예를 들어 시스템의 디스크, 네트워크, 애플리케이션 등 어느 부분이 문제인지 빠르게 파악할 수 있죠. 또한 시스템의 리소스 사용률을 분석하여, 비효율적으로 사용되는 리소스를 조정합니다. 이처럼 APM을 적극적으로 활용하는 기업은, 웹 애플리케이션 성능을 효과적으로 관리할 수 있어 고객 만족을 높일 수 있습니다. 그렇다면 APM을 통해 웹 애플리케이션을 효율적으로 관리하기 위해서는 어떤 지표를 구체적으로 확인하고 관리해야 할까요? │APM에서 꼭 확인해야 할 주요 지표들 APM으로 웹 애플리케이션을 효과적으로 관리하기 위해서는, 먼저 트랜잭션(Transaction) 처리 현황을 확인하는 것이 중요합니다. APM을 통해 사용자가 웹페이지를 조회하거나, API 호출을 통해 특정 작업을 요청할 때, 이 요청이 정상적으로 활성화되고 완료되기까지 전 과정을 살펴볼 수 있어야 하죠. 이밖에도 확인해야 할 주요 지표들이 있는데요. 좀 더 자세히 살펴보겠습니다. 트랜잭션 처리량 [그림] Zenius-APM 서비스 처리 현황 이 차트는 시스템이 일정 시간동안 처리할 수 있는 트랜잭션의 수를 말합니다. 쉽게 말해 웹 애플리케이션이 얼마나 많은 일을 할 수 있는지를 보여주는 지표이죠. 예를 든다면 온라인 쇼핑몰에는 초당 몇 건의 주문을 처리할 수 있는지를 나타냅니다. 여기서 트랜잭션 처리량이 높다는 것은 그만큼 많은 작업을 빠르게 처리할 수 있다는 것을 의미합니다. 정리한다면 시스템 부하가 증가할 경우 처리량이 어떻게 변화하는지 파악하여, 시스템이 사용자 요구와 피크 타임에 충분한 성능을 발휘할 수 있는지 확인하는데 유용합니다. 트랜잭션 상세 성능 : CPU, 힙메모리 등 [그림] Zenius-APM CPU, 힙 메모리 사용률 APM은 트랜잭션의 상세 성능인 CPU 사용률, 힙 메모리 사용률 등 같은 중요한 지표들을 측정합니다. 'CPU 사용률'은 애플리케이션이 얼마나 많은 리소스를 사용하는지를 보여줍니다. '힙 메모리 사용률'은 애플리케이션의 메모리 관리 효율성을 진단하는 지표인데요. 높은 사용률은 메모리 누수를, 낮은 사용률은 리소스 부족과 성능 저하를 나타낼 수 있죠. 이 지표를 모니터링함으로써 개발자는 메모리 관리를 최적화할 수 있습니다. 트랜잭션 응답 분포 : 응답시간 [그림] Zenius-APM 서비스 응답분포 트랜잭션 응답 분포는 사용자의 요청에 대한 시스템의 응답 시간을 말합니다. 사용자가 웹 애플리케이션에 어떤 요청을 했을 때, 시스템이 얼마나 빨리 응답하는지를 나타내주죠. 예를 들어 웹사이트에서 페이지를 클릭했을 때, 그 페이지가 얼마나 빨리 응답하는지에 대한 시간을 말합니다. 응답 시간이 짧으면 사용자는 웹사이트에 더 오래 머무르고, 더 많은 페이지를 탐색하게 해, 사용자의 이탈률을 줄일 수 있겠죠. 사용자 수 모니터링 지표 제공 : 동시 접속 사용자 수, 시간당 방문자 수, 액티브 사용자 수 [그림] Zenius-APM 동시 사용자수, 시간대별 방문자 수 등 이 지표는 웹 애플리케이션을 이용하는 사용자 활동을 측정합니다. 여기서 꼭 확인해야 하는 세 가지 지표가 있는데요. '동시 접속 사용자 수'는 특정 시점에 애플리케이션을 이용하는 사용자 수를 나타내며, 시스템의 부하를 파악하는 데 중요한 지표입니다. '시간당 방문자 수'는 한 시간 동안 애플리케이션 트래픽 패턴을 이해하는 데 도움을 주며 '액티브 사용자 수'는 일정 기간 동안 활동적으로 애플리케이션을 이용하는 사용자 수를 의미하죠. 예를 든다면 온라인 게임 서버에 동시 접속 사용자 수가 급격히 증가하는 시간대를 파악하여, 그 시간대에 서버 리소스를 늘리거나 최적화하여 끊김 없는 게임을 경험할 수 있게 하죠. 이처럼 APM은 트랜잭션을 모니터링하여, 애플리케이션의 성능을 측정하고 분석할 수 있어야 합니다. 이를 통해 웹 애플리케이션에 문제가 발생했을 때 어디서부터 해결해야 할지에 대한 방향을 잡을 수 있죠. │APM, 효과적으로 활용하고 있으신가요? 이번 시간에는 APM이 왜 점차 중요해지고, 웹 애플리케이션을 효과적으로 관리하기 위해 어떤 APM 핵심 지표를 살펴봐야 하는지 알아보았습니다. 다양한 분야에서 애플리케이션 활용이 필수가 되고 있고 AI와 클라우드 컴퓨팅 기술 채택으로 인한 복잡성이 증가하고 있습니다. 이에 따라서 Mordor Intelligence는 APM 시장의 가치가 2024년에 약 94억 달러에 이른 후 2029년까지 연평균 성장률(CAGR) 31%로 급성장할 것으로 예측했습니다. 이처럼 급격하게 중요성과 활용도가 커지는 APM. 혹시 아직 도입하지 않으셨다면 Zenius-APM과 같은 효율적인 솔루션을 통해 애플리케이션 성능을 최적화 하시기 바랍니다. 2024.07.12
기술이야기 Helm과 Argo의 개념과 통합 활용법?! 기술이야기 Helm과 Argo의 개념과 통합 활용법?! 애플리케이션을 클라우드 네이티브 환경에서 효율적으로 관리하고 운영할 수 있는 플랫폼인 쿠버네티스(kubernetes)를 활용하는 기업들이 점점 더 늘어나고 있습니다. 이에 따라 효율적인 애플리케이션 관리를 통해 패키징 배포, 관리를 자동화하고 일관된 상태를 유지하는 것이 중요해지고 있습니다. 이번 글을 통해서는 애플리케이션 개발 및 도구 중 최근 많이 사용되는 Helm과 Argo에 대해서 자세히 알아보겠습니다. ㅣHelm의 등장 쿠버네티스를 활용한 애플리케이션 배포에 가장 기본이 되는 단위는 yaml 파일로, 주로 쿠버네티스 object(리소스)들을 정의하고 다루는데 활용됩니다. 쿠버네티스를 통해 애플리케이션을 배포하다 보면 비슷한 틀과 내용을 공유하고, 내부 값(configuration)만 일부 변경하는 작업을 하게 되는데요, 이 과정에서 애플리케이션마다 모두 yaml 파일을 만들어야 하나 보니 매우 번거로웠습니다. 위 이미지를 보면, A 애플리케이션은 정적 파일인 yaml을 오브젝트별(Service, Pod, ConfigMap)로 만들어서 생성하고 배포합니다. 그러다가 프로젝트의 확장에 따른 기능 추가로 인해 B와 C 애플리케이션으로 쪼개어 각각의 yaml 파일을 복사해서 사용합니다. 하지만, 팀 단위로 인프라가 확장될 경우는 어떻게 할까요? 개별 오브젝트에 대한 yaml 개별적으로 관리할 수 있을까요? 만약, 개별적으로 관리한다면 파일의 갯수와 코드량의 증가로 인해 개발자들은 매우 혼잡하게 될 것입니다. 이러한 문제점을 해결하기 위해, 쿠버네티스에서 애플리케이션을 배포하기 위해 사용되는 대표적인 패키징 툴인 Helm이 등장하게 됐습니다. Helm을 활용하면 컨테이너 배포뿐 아니라 애플리케이션을 배포하기 위해 필요한 쿠버네티스 리소스를Node의 npm, Ubuntu의 APT, Mac의 Homebrew처럼 모두 패키지 형태로 배포할 수 있습니다. ㅣHelm의 역사 Helm은 v1부터 v3에 이르기까지 아래와 같은 변화의 과정을 거쳐왔습니다. Helm v1 ◾ [2015년 11월] DEIS의 내부 프로젝트로 시작되어 KubeCon에서 발표 ◾ [2017년 04월] MS에서 DEIS를 인수 Helm v2 ◾ [2016년 01월] Google 프로젝트에 합류 ◾ [2016년 ~ 2018년] Helm v2 고도화, 2.15.0 릴리스 발표에서 v2 향후 계획 세부사항 공유 Helm v3 ◾ [2018년 06월] CNCF 프로젝트에 합류, MS, 삼성 SDS, IBM 및 Blood Orange의 구성원 등이 참여 ◾ [2019년 11월] 릴리스 발표 v2에서 v3로 고도화되면서 가장 눈에 띄는 변화는 Tiller(클러스터 내에서 Helm 패키지 및 배포 상태를 관리하는 서버 구성요소)의 제거입니다. Helm v2에서는 클러스터에 Tiller를 설치하여, API Server와 REST*1 통신을 하고, Client와 gRPC*2 통신을 진행했었는데요, Helm v3부터는 Tiller가 제거되면서 Client에서 바로 REST 통신을 통해 API Server로 요청하는 방식으로 변경되었습니다. 그 외에도 Helm v3으로 업그레이드되면서 보안 취약점이 줄어들었으며, 설치 및 관리 과정이 단순화되었습니다. 또한 사용자에게 보다 더 안전하고 효율적인 배포 및 관리 환경을 제공할 수 있게 되었습니다. *1 REST (Representational State Transfer) : 웹 기반 애플리케이션에서 자원을 관리하기 위한 아키텍처 스타일, 데이터를 고유한 URL로 표현하고 HTTP 메서드(GET, POST, PUT, DELETE 등)를 사용하여 해당 자원에 대한 행위를 정의함 *2 gRPC (google Remote Procedure Call) : 구글에서 개발한 오픈소스 프레임워크, 원격지에 있는 다른 시스템 또는 서버에 있는 함수를 호출하는 방식 ㅣHelm의 주요 개념 Helm은 애플리케이션을 배포해 주는 툴이라고 앞서 살펴봤는데요, Helm과 같이 사용되는 주요 개념들을 살펴보겠습니다. ◾ Helm Chart: 쿠버네티스 리소스를 하나로 묶은 패키지입니다. 이는 yaml 파일의 묶음(패키지)으로, 이 묶음 public 혹은 private registry에 push 해두고, helm 명령어를 통해 Helm Chart를 설치하여 쿠버네티스 리소스를 배포하는 역할을 합니다. ◾ Repository: Helm Chart 들의 저장소 ◾ Release: kubernetes Cluster에서 구동되는 차트 인스턴스이며, Chart는 여러 번 설치되고 새로운 인스턴스는 Release로 관리됩니다. ㅣHelm의 주요 기능 Helm의 두 가지 주요 기능을 살펴보겠습니다. [1] Helm Chart를 통한 손쉬운 배포 Helm을 사용하면 어떻게 되는지 그림으로 살펴보겠습니다. 개발 클러스터가 있고 앱 2개를 배포한다고 가정했을 때, Helm Chart Template을 만들면 변수 처리를 통해 yaml 파일을 하나하나 수정할 필요 없습니다. kubectl 명령어를 통해 yaml 파일의 동적 값을 치환하여 템플릿 형태로 편리하게 배포할 수 있다는 장점이 있습니다. [2] Helm Package를 이용한 오픈소스 설치 및 배포 Helm을 통해서 쿠버네티스에서 가동할 수 있는 아래와 같은 다양한 오픈소스들의 제품들을 쉽게 설치/배포할 수 있습니다. 위제품들 외에도 Helm Chart는 총 14,376개의 패키지와 281,373개의 릴리스를 오픈소스로 제공합니다. 이를 통해 사용자들은 자신의 요구에 맞는 가장 적합한 솔루션을 선택하여 개발할 수 있습니다. 또한 많은 사용자들이 검증하고 사용함에 따라 안정성 있는 운영도 가능하죠. 다양한 Helm Chart 패키지는 커스터마이징이 가능한 경우가 많은데요, 사용자는 필요에 따라 구성을 조정하고 수정해서 사용할 수 있는 장점이 있습니다. 다음으로는 Helm 못지않게 많이 활용되는 ArgoCD에 대해서 살펴보겠습니다. ㅣ ArgoCD란?! 기존의 kubernetes 애플리케이션을 배포하고 관리하는 방식은 수동적이었습니다. yaml 파일을 직접 편집하고, kubectl로 변경사항을 클러스터에 적용하는 수동 배포 방식은 실수를 많이 유발했죠. 또한 여러 개발자나 팀이 각자의 방식대로 배포 및 관리를 수행하는 경우, 클러스터 상태의 일관성이 저하되었는데요. 이로 인해 개발 및 운영팀 간의 협업이 어렵고 생산성이 감소되는 문제가 발생하기도 했습니다. 이러한 기존 접근 방식에 대한 대안으로 GitOps가 탄생했는데요, GitOps는 Git 저장소를 사용하는 소프트웨어 배포 접근 방식입니다. GitOps는 인프라와 소프트웨어를 함께 관리함으로써, Git 버전 관리 시스템과 운영환경 간의 일관성을 유지할 수 있도록 합니다. ArgoCD는 GitOps를 구현하기 위한 도구 중 하나로 kubernetes 애플리케이션의 자동 배포를 위한 오픈소스 도구입니다. kubernetes 클러스터에 배포된 애플리케이션의 CI/CD 파이프라인에서 CD 부분을 담당하며, Git 저장소에서 변경사항을 감지하여 자동으로 kubernetes 클러스터에 애플리케이션을 배포할 수 있습니다. kubernetes 애플리케이션 배포 과정을 살펴보겠습니다. ① 사용자가 개발한 내용을 Git 저장소에 Push(이때, kubernetes 배포 방식인 Helm 배포 방식의 구조로 Git 저장소에 Push 할 수 있습니다.) ② ArgoCD가 Git 저장소의 변경 상태를 감지 ③ Git 저장소의 변경된 내용을 kubernetes에 배포하여 반영 ㅣ ArgoCD의 주요 기능 ◾ 애플리케이션을 지정된 환경에 자동으로 배포 ◾ 멀티 클러스터 관리기능 제공 ◾ OCI, OAuth2, LDAP 등 SSO 연동 ◾ 멀티 테넌시와 자체적인 RBAC 정책 제공 ◾ 애플리케이션 리소스 상태 분석 ◾ 애플리케이션 자동 및 수동 동기화 기능 제공 ◾ Argo가 관리하고 있는 쿠버네티스 리소스 시각화 UI 제공 ◾ 자동화 및 CI 통합을 위한 CLI 제공 위 내용은 ArgoCD가 제공하는 주요 기능을 나열한 것인데요, 이 중에서도 대표적인 다섯 가지 기능에 대해서 자세히 살펴보겠습니다. ① 쿠버네티스 모니터링 ArgoCD는 쿠버네티스를 항상 추적하고 있다가 저장소의 변경사항이 감지되면, 자동으로 클러스터의 상태를 저장소의 상태와 동기화합니다. 또한 문제가 생기면 이전 상태로 롤백 할 수 있으며, 이를 통해 시스템 복구 및 문제 해결을 용이하게 합니다. ② 멀티 클러스터 관리 다중 클러스터 환경에서도 배포를 관리할 수 있어 복잡한 인프라 환경에서의 효율적인 작업을 가능하게 합니다. ③ ArgoCD 대시보드 Argo에서는 클러스터 상태를 효과적으로 관리하고 모니터링할 수 있는 대시보드를 제공합니다. ArgoCD 대시보드를 통해 애플리케이션의 실시간 상태와 동기화 상태와 같은 전체적인 배포 파이프라인을 자동화하여 시각적으로 확인할 수 있고, 롤백 및 이력 추적 기능도 동시에 제공하고 있습니다. ④ 안전한 인증 및 권한 관리 역할 기반 액세스 제어(RBAC) 및 권한 제어기능을 통해 민감한 정보에 대한 접근을 제어할 수 있습니다. ⑤ GitOps 지원 ArgoCD는 GitOps 방법론을 따르므로 애플리케이션의 배포를 Git Repository와 동기화할 수 있습니다. 이를 통해 코드와 인프라의 일관성을 유지하고 변경사항을 추적할 수 있습니다. ㅣ Helm과 ArgoCD의 통합 활용 프로세스 Helm과 Argo를 함께 사용하면 개발, 테스트, 배포 프로세스를 효과적으로 관리할 수 있습니다. Helm으로 애플리케이션을 패키징하고 버전을 관리하며, Argo를 활용하여 GitOps 워크플로우를 통해 지속적인 통합 및 배포를 자동화할 수 있습니다. ① develop: Helm을 사용하여 애플리케이션을 Helm Chart로 패키징 합니다. 이후 개발된 Helm Chart를 저장하기 위한 Git 저장소를 설정합니다. ArgoCD에서 저장한 저장소를 특정 배포 대상 Kubernetes 클러스터와 연결하여, Git 저장소의 변경사항을 감지하고 새로운 배포를 시작하여 클러스터에 적용합니다. ② git push: 개발자가 로컬 저장소 내용을 원격 저장소에 배포합니다. ③ Observe(GitOps): ArgoCD는 Git 저장소의 변경 사항을 감지하여, 변경사항이 발생하면 새로운 버전의 애플리케이션을 배포하여 자동화 및 일관성을 유지합니다. ④ 운영/테스트/개발 ㅣ마무리 오늘 함께 살펴본 Helm과 ArgoCD 두 가지 강력한 도구를 함께 이용한다면 CI/CD 통합, 버전 관리, 자동화 등의 이점을 활용해서 kubernetes 환경에서 애플리케이션을 더 효율적으로 관리할 수 있습니다. 한편 애플리케이션을 효과적으로 개발하는 것도 중요하지만, kubernetes 환경의 프로세스를 실시간 모니터링하고 추적하여 관리하는 것도 매우 중요합니다. 브레인즈컴퍼니의 kubernetes 모니터링 솔루션 Zenius-K8s는 다양한 CI/CD 도구를 이용하여 개발한 kubernetes 애플리케이션의 전체 클러스터 및 구성요소에 대한 상세 성능 정보를 모니터링하고, 리소스를 추적함으로써 시스템의 안정성과 성능을 높여주고 있습니다. 2024.03.08
기술이야기 데브옵스(DevOps)에 대한 오해, 그리고 진실은?! 기술이야기 데브옵스(DevOps)에 대한 오해, 그리고 진실은?! 2000년 대 후반 IT 분야에서 데브옵스(DevOps)라는 움직임이 시작된 후, 꾸준하게 관심이 이어지고 있습니다. 데브옵스와 관련된 전 세계 시장의 규모는 2023년 기준 약 15조 원으로 추산되며, 올해부터는 연평균 25.5%씩 성장하여 2032년에 118조 원에 이를 것으로 예상됩니다(*출처: Grand View Research). 우리나라의 경우 네이버, 카카오, 우아한 형제들, 토스 등과 같은 국내 대기업부터 스타트업까지 데브옵스 팀을 구축하여 적극적으로 활용하고 있기도 한데요. 이처럼 많은 기업들이 말하는 데브옵스란 과연 무엇일까요? 그리고 어떻게 하면 데브옵스를 성공적으로 도입하고 활용할 수 있을까요? │ 데브옵스(DevOps)란 무엇인가? [그림 1] DevOps 개념 ⓒdevopedia 우선 데브옵스가 무엇인지부터 살펴봅시다. 검색 사이트에서 '데브옵스 혹은 DevOps'라고 검색하면 위 [그림1]과 같은 결과를 찾을 수 있는데요. [그림 2] DevOps에 대한 필자의 첫인상 하지만 처음 데브옵스라는 단어를 접할 경우 [그림 2]처럼 오버랩되는 건, 필자만 그런 것은 아니라고 생각합니다. 위 그림처럼 "개발자 보러 운영까지 하라는 거야? 아니면 운영자에게 개발까지 하라는 거야?"라는 질문을 던질 수 있겠죠. 데브옵스(DevOps)는 소프트웨어의 개발(Developmnet)과 + 운영(Operations)의 합성어이다. 이는 소프트웨어 개발자와 정보기술 전문가 간의 소통, 협업 및 통합을 강조하는 개발 환경이나 문화를 말한다. 데브옵스는 소프트웨어 개발조직과 운영조직 간의 상호 의존적 대응이며, 조직이 소프트웨어 제품과 서비스를 빠른 시간에 개발 및 배포하는 것을 목적으로 한다. ⓒ위키백과 위 내용에도 언급되었듯이, 데브옵스라는 것은 결국 단순한 기술이 아닌 환경 또는 사람들 간에 관계라고 할 수 있습니다. 그렇다면 데브옵스는 어떤 이유로 주목받을 수 있었을까요? │ 데브옵스(DevOps)가 주목받게 된 배경은? 데브옵스가 주목받은 이유는 여러 가지 있을 수 있지만, 주요한 이유 중 몇 가지를 설명하면 다음과 같습니다. 클라우드 컴퓨팅 기술의 발전 IT 산업의 발전에 따라 빠른 개발과 빠른 배포, 그리고 고객의 요구에 신속하게 대응하는 능력이 중요해졌습니다. 특히 클라우드 컴퓨팅(Cloud Computing) 기술의 발전으로 데브옵스의 필요성이 더 대두되었는데요. 클라우드 자원의 가상화 기술과 빠른 프로비저닝*1을 통해 기존의 개발과 운영 간의 경계가 허물어지며, 서로 간의 협력이 필수적으로 요구되었기 때문입니다. 실제로 데브옵스만으로는 52%, 클라우드 단독 사용으로는 53%의 성능 향상을 얻었지만, 데브옵스와 클라우드가 결합된 환경에서는 평균 81%의 성능을 향상시킬 수 있다는 조사 결과도 있습니다. *1 프로비저닝(Provisioning): 사용자가 요청한 IT 자원을 사용할 수 있는 상태로 준비하는 것 MSA의 등장 [그림 4] 모놀리식 구조 예시(왼) [그림 5] MSA 구조 예시(오) 지금까지 운영 중인 시스템 혹은 서비스는, 하나의 큰 덩어리로 구성된 [그림 4] 모놀리식(Monolithic) 구조를 많이 사용하고 있습니다. 안정성을 확보하고 기능 추가를 편리하게 할 수 있었기 때문이죠. 하지만 한 부분의 변경이 전체 시스템에 영향을 미칠 수 있어, 유지보수가 어렵다는 한계점이 있습니다. 예를 든다면 특정 기능이 수정이 필요한 경우에도, 전체 시스템을 수정해야 해서 번거롭고 비효율적인 부분이 있습니다. 이러한 모놀리식 구조의 한계점으로 소프트웨어의 구조가 서서히 [그림 5] MSA(Micro Service Architecture)로 변화되고 있습니다. MSA는 통합된 하나의 덩어리를 관리하는 것이 아닌, 작은 단위로 쪼개어 관리하는 방식인데요. 관리하기도 효율적이고, 소프트웨어 품질개선과 요구사항 반영이 비교적 편리해졌습니다. 각 서비스가 독립적으로 배포되고 운영되기 때문에, 특정 기능을 수정할 때 전체 기능을 수정하거나 다시 배포할 필요가 없어진 거죠. 하지만 이러한 변화는 기존의 개발 환경과 조직 문화로 대응하기엔 어려움이 있었습니다. 이때 '데브옵스(DevOps)'가 좋은 솔루션으로 등장한 것이죠! 데브옵스가 지속적인 통합(CI)1과 지속적인 배포(CD)2를 통해 빠른 개발 주기를 실현하고 배포할 수 있을 뿐만 아니라, 다수의 독립적인 서비스가 상호작용할 수 있도록 원활한 협업과 통합을 가능하게 했기 때문입니다. *1 지속적인 통합(Continuous Integration, CI) 개발자가 코드를 변경할 때마다 자동으로 통합하고 빌드 하여, 소프트웨어의 품질을 빠르게 확인하는 과정 *2 지속적인 배포(Continuous Delivery, CD) 통합된 코드를 자동으로 테스트하고, 안정적으로 통과한 경우에는 자동으로 프로덕션 환경에 소프트웨어를 배포하는 것. 이에 따라 사용자에게 새로운 기능이나 수정 사항을 신속히 제공하는 과정 │ 데브옵스(DevOps) 도입 성공사례는? 이처럼 데브옵스의 정의와 주목받게 된 배경을 살펴봤는데요. 이번에는 데브옵스를 실제로 기업에 적용해 보고 성공한 사례를 자세히 살펴볼까요? 넷플릭스 넷플릭스(Netflix)는 데브옵스를 성공의 핵심요소로 삼아, 지속적으로 새로운 기능과 업데이트를 제공했습니다. 자동화된 유연한 인프라로 사용자 경험을 향상시켰죠. 이를 통해 빠르게 변화하는 스트리밍 산업에서 앞서 나갈 수 있게 되었고, 많은 비즈니스 이점을 얻게 되었습니다. 사실 넷플릭스는 2008년 큰 장애를 겪은 후, 클라우드로 이전되면서 인프라를 혁신적으로 개편했습니다. 이로써 기존의 수직적 단일 장애 지점에서 벗어나, 수평적으로 확장 가능한 분산 시스템을 구축할 수 있었습니다. 아마존 아마존(Amazon)은 데브옵스 원칙을 초기에 채택하여, 개발과 운영팀 간의 협력을 강화했습니다. 자동화와 지속적인 통합을 강조함에 따라, 빠른 배포 주기와 개선된 확장성을 달성할 수 있었죠. 이러한 아마존의 데브옵스 접근 방식은, 시장에서 경쟁 우위를 유지하는데 중요한 역할을 했습니다. 아마존 창립자인 제프 베이조스는 아마존의 데브옵스에 대해 '고객에게 집중하고, 혁신을 포용하며, 실험할 용기'를 강조했습니다. 베이조스는 혁신을 위해, 오해를 받고 비판받을 의향이 있어야 한다고 말했던 것이죠. 페이스북 페이스북(Facebook)은 "빠르게 움직이고 물건을 부수라"는 문화에 뿌리를 둔 데브옵스 관행을 택했습니다. 실험, 민첩성, 위험 감수를 중시하는 접근 방식을 포함해서 말이죠. 이처럼 페이스북은 지속적인 통합과 배포, 자동화된 테스팅, 모니터링을 사용하여 사용자에게 더 빠르고 높은 품질의 새로운 기능과 업데이트를 제공하고 있습니다. 월마트 2011년부터 데브옵스를 도입한 월마트(Walmart)는 자동화와 협업 그리고 지속적인 배포에 중점을 두었습니다. 애자일(Agile) 방법론과 클라우드 기반의 인프라 및 데브옵스 툴체인을 활용하여, 하루에 최대 100번까지 코드를 배포할 수 있게 된 것이죠. 이를 통해 디지털 변환을 가속화하고, 전자상거래 플랫폼을 개선하며, 고객 경험을 향상시킬 수 있었습니다. 위 기업들은 데브옵스라는 도구를 효과적으로 활용하여 비즈니스 성과를 창출하고, 경쟁 우위를 확보할 수 있었습니다. 그렇다면 데브옵스를 도입하기만 하면 무조건 성공할 수 있을까요? │ 데브옵스(DevOps)의 오해와 한계 앞선 질문에 대한 대답은 아쉽게도 NO입니다. 데브옵스는 개발 환경과 문화를 전부 해결해 줄 수 있는 '만능책'은 아니라는 것이죠. 데브옵스가 도입된 이후 새로운 한계점이 발견되었고, 실패할 사례들도 적지 않게 나왔습니다. 이러한 결과는 아래와 같은 오해들에서 비롯될 확률이 높은데요. 대표적으로 3가지만 살펴봅시다. [그림 6] DevOps 구현을 위한 도구 ⓒMedium_Ajesh Martin 오해 1. 데브옵스는 일종의 단순한 도구일 뿐이다? 데브옵스를 '일종의 도구'로만 보는 것은 잘못된 판단입니다. 물론 여러 팀에서 보다 더 나은 환경과 문화를 위해 슬랙(Slack), 젠킨즈(Jenkins), 도커(Docker) 등 여러 도구를 사용하는 것은 좋습니다. 하지만 데브옵스는 이보다 더 광범위한 접근 방식을 담고 있습니다. 즉 개발과 운영팀 간의 협력과 더 빠른 소프트웨어 개발과 배포를 가능하게 하는 방법론을 포함한다는 것이죠. 다시 말해 데브옵스라는 '도구'를 이용하기 이전에, 문화적 그리고 기술적 접근 방식이 바탕이 되어야 데브옵스라는 툴이 도움 될 수 있습니다. 오해 2. 데브옵스는 모든 조직에 적합하다? 만약 '다른 회사에 데브옵스라는 팀이 있으니, 우리도 데브옵스 팀을 만들자'라는 식으로 접근한다면, [그림 2]와 같은 모습이 될 것으로 예상됩니다. 즉 데브옵스의 조직 체계를 구성한다고 해서 데브옵스가 실현될 순 없습니다. 서로 다른 입장과 상황이 있는 개발자-팀-회사, 운영자-팀-회사 간에 상당한 노력을 통해 만들어 내는 것이 더 중요한 것이죠. 이와 비슷한 사례로 애자일(Agile) 문화가 있습니다. 2000년대 초반 '애자일 소프트웨어 선언문'으로 다양한 애자일 방법론이 주목을 받았었죠. 개발에서 빠르고 유연한 방법을 강조하며, 이후 많은 기업들이 애자일 방법론을 도입하게 되며 유행처럼 번져갔습니다. [그림 7] Agile 프로세스 여기서 애자일 문화를 도입한 많은 기업들이 간과했던 사실은, 애자일 문화 도입 자체가 '해결책'이라고 생각했다는 점입니다. 이보다 기존의 조직 문화에서 애자일 문화를 도입하는 것이 적합한 상황인지, 기존의 프로세스보다 효과를 발휘할 수 있는지, 팀 구성원들이 충분히 적응할 수 있는 문화인지 등을 우선적으로 고려하는 것이 더 중요합니다. 데브옵스 역시 마찬가지로 기존의 조직 규모, 문화, 프로젝트의 특성에 대한 명확한 이해가 먼저 선행되어야 합니다. 데브옵스 도입 전에 조직의 현재 상황과 목표를 면밀히 평가한 후, 점진적으로 도입하는 것이 중요하죠. 대기업이나 캐시카우가 있는 기업들이 데브옵스를 실행했다고 해서, 또는 단지 트렌드라는 이유만으로 도입하는 것은 위험할 수 있습니다. 오해 3. 데브옵스는 빠른 소프트웨어 배포만을 목표로 한다? 데브옵스는 속도만 중시하고 품질이나 안정성을 소홀히 한다는 인식이 있습니다. 하지만 데브옵스는 소프트웨어의 빠른 배포뿐만 아니라, 품질과 안정성 그리고 보안을 동시에 추구해야 합니다. 이에 따라 지속적인 통합과 배포(CI/CD), 자동화된 테스트, 모니터링 등을 통해 이러한 목표를 달성하려고 노력해야 하죠. 이처럼 데브옵스라는 도구를 도입하고 데브옵스 팀을 구성했다고 해서, 데브옵스가 즉각적으로 실현되는 것은 아닙니다. │ 데브옵스(DevOps) 보다 선행되어야 하는 '이것' 진정한 데브옵스를 실현하기 위한 방법을 한 문장으로 표현한다면 다음과 같습니다. "싸우지 말고 함께 소프트웨어 시스템 혹은 서비스를 만들어봐요" 힘 빠지는 결론일 수도 있습니다. 하지만 데브옵스를 도입하기 이전에 더 선행되어야 할 것은 각각 다른 업무의 조직원들끼리 서로를 이해하고, 협력하며, 보다 안정적인 시스템과 서비스를 제공하는 '문화'를 만드는 것이 더 현실적인 행동이라고 생각합니다. 물론 데브(Dev)와 옵스(Ops)는 우선순위가 동일하지 않고, 동일한 언어를 사용하지 않을 수 있으며, 매우 다른 관점에서 문제 해결될 가능성이 높습니다. 이처럼 팀을 하나로 모으기 위해서는 상당한 시간과 지속적인 노력이 필요한 것이죠. 그렇다면 어떤 방식으로 팀 협업 문화를 만들어야, 데브옵스를 보다 성공적으로 도입할 수 있을까요? │ 데브옵스(DevOps) 성공을 위한 첫걸음 먼저 조직 내의 문화를 이해한 다음, 조직 내 교육과 커뮤니케이션을 강화하는 것이 중요한데요. 구체적인 방안을 제안한다면 다음과 같습니다. 로테이션 프로그램 도입 진정한 데브옵스를 실현하려면, 무엇보다 각 부서의 업무적인 이해가 중요합니다. 가장 직관적인 방법으로는 다른 부서의 업무를 '직접 체험'해 보는 것입니다. 예를 든다면 개발자가 운영팀의 업무를 수행하거나, 보안 팀이 개발 업무에 참여하는 등, 다양한 부서 간의 경험을 쌓아 보는 것이죠. 이를 통해 서로의 업무 환경과 각 부서 간의 역할을 이해하는 데 큰 도움을 받을 수 있습니다. 지식 공유 플랫폼 구축 내부 플랫폼이나 문서화된 지식 공유 시스템을 구축하는 방법도 있습니다. 각 부서의 업무와 프로세스에 대한 정보를 쉽게 접근할 수 있도록 하는 것이죠. 예를 들면 데브옵스 문화나 기술적인 도구, 프로세스 등을 포함하여 다양한 지식을 공유합니다. 이를 통해 각 부서의 업무 특성을 명확히 이해할 수 있고, 협업을 원활하게 진행할 수 있겠죠. 정기적인 교육 세션 빠르게 변화하는 기술에 대응하기 위해, 팀원들이 지속적으로 학습하고 발전해야 합니다. 정기적인 교육은 이러한 학습을 지원하는 데 중요한 역할을 하는데요. 예를 든다면 새로 도입된 CI/CD 도구에 대한 워크숍을 개최하여, 팀원들이 해당 도구의 사용법과 이점을 학습할 수 있도록 합니다. 또한 현재 사용 중인 프로세스 개선점에 대한 세션을 주기적으로 열어, 팀원들이 학습한 내용을 바탕으로 업무에 효율적으로 적용할 수 있습니다. 만약 특정 분야에 강점을 가진 팀원이 있어 주기적으로 자신의 경험과 성과를 공유한다면, 팀 전체에게 영감을 주고 학습 기회를 제공할 수도 있겠죠. 스탠드 업 미팅 활성화 매일 정해진 시간에 각 팀원이 자신의 진행 상황이나 이슈, 계획을 간결하게 공유합니다. 정해진 시간을 지키고 효율적인 미팅 진행을 위해, 공유하는 팀원들의 말에 집중하되 '총 15분'을 초과하지 않도록 노력하는 것이 중요합니다. 이를 통해 짧은 시간 동안 팀 전체가 빠르게 현재 상황을 파악하고, 실시간으로 정보를 공유하며, 신속하게 문제를 해결할 수 있습니다. 이처럼 위와 같은 방법들을 통해 구성원들이 효과적으로 협력할 수 있는 환경을 조성하는 노력들이 필요합니다. 。。。。。。。。。。。。 많은 기업들이 경쟁에서 지지 않기 위해 도입하고 있는 데브옵스(DevOps). 하지만 진정한 데브옵스를 실현하기 위해서는 "싸우지 말고 소프트웨어 시스템 혹은 서비스를 만들어 봐요"라는 문장처럼 각각 다른 업무의 조직원들끼리 서로 이해하고, 협력하는 문화가 선행되는 것이 매우 중요합니다. 즉 너희 팀 vs 우리 팀 업무를 구분하지 않고 함께 협력하여, 아이디어를 생산하고, 가치를 창출해야 하는 것이죠. 혹시 아직 데브옵스를 도입하기 전이거나, 도입 이후에 올바르게 활용되고 있는지 궁금하시다면, 오늘 이 글을 통해 심도 있게 생각해 보시는 건 어떨까요? 2024.02.14
기술이야기 가트너부터 딜로이트까지, 2024 IT트렌드 총정리 기술이야기 가트너부터 딜로이트까지, 2024 IT트렌드 총정리 지난해는 AI를 중심으로 IT 전 분야에서 혁신적인 변화가 있었고, 올 2024년에는 변화의 속도가 더 빨라질 것으로 예상됩니다. 따라서 이와 같은 빠른 변화를에 얼마나 잘 대처하는지가 점점 더 중요해지고 있는데요. 변화를 더 자세하고 빠르게 파악하기 위해서 가트너, 딜로이트, 포레스터 리서치가 발표한 2024 IT 트렌드의 핵심 내용을 모아봤습니다. 。。。。。。。。。。。。 가트너, AI가 가져올 구체적인 변화에 주목하다 가트너는 AI TRiSM부터 Machine Customers까지 총 10개의 주제로 2024년 IT 트렌드를 정리했습니다. 특히 AI와 클라우드를 통한 산업에서의 구체적인 변화에 주목했는데요. 자세한 내용을 살펴보겠습니다. [1] AI TRiSM: AI의 신뢰, 위험 및 보안 관리 AI TRiSM(AI Trust, Risk, and Security Management)은 인공지능 시스템의 신뢰성, 위험, 보안을 관리하는 프레임워크입니다. AI가 윤리적이고 공정하며 투명해야 함을 의미하며, 잠재적 위험을 식별하고 완화하는 데 중점을 둡니다. 보안 관리는 AI 시스템을 사이버 공격과 데이터 유출로부터 보호합니다. AI TRiSM은 의료·금융·자율주행 차량 등, 다양한 분야에서 AI의 안전하고 책임 있는 사용을 보장하는 데 필수적입니다. 이를 통해서 AI 기술의 지속 가능한 발전과 사회적 신뢰를 유지할 수 있습니다. [2] CTEM: 지속적인 위협 노출 관리 Continuous Threat Exposure Management(CTEM)은 사이버 보안 분야에서 조직의 지속적인 위협 노출을 관리하는 전략입니다. 이 방법론은 실시간 모니터링, 자동화된 위험 평가, 적응적 대응 전략을 포함하며 장기적으로 비즈니스의 연속성을 보장하는데 기여합니다. 예를 들어 금융 서비스 회사는 네트워크와 시스템을 지속적으로 스캔하여 취약점을 탐지하고, 감지된 위협에 대해 우선순위를 매겨 신속하게 대응해야 합니다. 또한 소프트웨어 개발 회사는 개발 중인 소프트웨어와 인프라를 모니터링하여 보안 취약점을 조기에 발견하고, 자동화된 도구를 사용해 코드의 취약점을 수정해야 합니다. [3] Sustainable Technology: 지속 가능한 기술 지속 가능한 기술은 환경 영향을 줄이고 지속 가능성을 촉진하는 혁신 및 관행을 포함합니다. IIoT(산업용 사물 인터넷) 센서와 AI를 사용하여 공급망 작업을 최적화하고, 탄소 배출을 줄이며 전반적인 장비 효율성을 향상시키는 산업이 좋은 예입니다. 또한 자급자족 LED 조명, 전기 교통, 태양 에너지, 탄소 포집 및 저장 기술 등의 지속 가능한 기술과 관행도 포함됩니다. 가트너는 또한 지속 가능한 기술이 위험 감소, 운영 효율성 향상, 경쟁 우위 획득, 인재 유치, 환경 및 사회적 책임 강화와 같은 비즈니스 이점을 제공한다고 강조합니다. [4] Platform Engineering: 플랫폼 엔지니어링 플랫폼 엔지니어링은 개발자와 사용자가 쉽게 사용할 수 있는 도구, 기능 및 프로세스 세트를 제공하는 방식입니다. 사용자의 생산성을 높이고 부담을 줄이는데 중점을 둡니다. 플랫폼 엔지니어링은 사용자의 특정 요구와 비즈니스 요구에 맞게 플랫폼을 수정합니다. 전담 제품 팀은 재사용 가능한 도구와 적절한 기능을 제공하며, 사용자 친화적인 인터페이스 솔루션을 제공합니다. 자동화된 프로세스 및 의사 결정을 위한 기초를 제공하며, 복잡한 상황에서도 디지털 개발을 가속화하게 하는 Be Informed 플랫폼이 좋은 예입니다. [5] AI-Augmented Development: AI 증강 개발 소프트웨어 개발 과정에서 AI를 활용하여 개발자의 작업을 돕고, 테스트 플랫폼과 문서 작성을 지원하는 것을 뜻합니다. GitHub Copilot, Replit GhostWriter, Amazon CodeWhisperer와 같은 AI 기반 코드 생성 서비스가 좋은 예입니다. 이러한 AI 기반 코딩 도우미를 사용하여 업무의 효율을 높일 수 있지만, AI가 오류를 발생시킬 수 있고 독창적인 코드를 생성할 수 없기에 개발자의 역할은 여전히 중요합니다. [6] Industry Cloud Platforms: 산업 클라우드 플랫폼 Industry Cloud Platforms은 특정 산업에 특화된 기능을 제공하는 클라우드 서비스입니다. SaaS(Software as a Service), PaaS(Platform as a Service), IaaS(Infrastructure as a Service)를 결합하여 업계별 맞춤형 기능을 제공합니다. 구체적으로 네 가지의 서비스를 예로 들 수 있습니다. ◾ AWS for Healthcare AWS는 의료 산업에 특화된 클라우드 서비스를 제공하여 의료 데이터 관리, 환자 관리, 의료 연구 등을 지원합니다. ◾ Microsoft Cloud for Financial Services 금융 산업에 맞춤화된 클라우드 솔루션을 제공하여 은행업, 보험 업계에서 사용되고 있습니다. ◾ GCP for Retail Google은 소매 산업에 특화된 클라우드 서비스를 통해 고객 데이터 분석, 재고 관리, 전자상거래 솔루션 등을 지원합니다. ◾ IBM Cloud for Telecommunications 통신 산업에 최적화된 클라우드 서비스를 제공하여 네트워크 운영, 고객 서비스 향상, 신기술 적용 등을 지원합니다. 이러한 산업별 클라우드 플랫폼은 기업이 보다 효율적으로 운영하고 혁신을 가속화하는 데 도움을 줍니다. [7] Intelligent Applications: 지능형 애플리케이션 Intelligent Applications은 인공지능(AI)과 머신러닝 기술을 활용하여 데이터를 분석하고, 사용자 행동을 예측하는 등의 기능을 제공합니다. 자동화된 의사결정, 사용자 맞춤형 경험 제공, 그리고 비즈니스 프로세스의 효율성 향상을 위해 설계되었습니다. 예를 들어 고객 서비스를 위한 AI 기반 챗봇, 데이터 분석을 통해 사용자에게 맞춤형 추천을 제공하는 소매 애플리케이션, 또는 실시간 의료 데이터 분석을 제공하는 헬스케어 애플리케이션 등이 있습니다. Salesforce Einstein, Google Cloud AI, IBM Watson, Microsoft Azure AI가 지능형 애플리케이션에 해당합니다. [8] Democratized Generative AI: 민주화된 생성 AI Democratized Generative AI는 인공지능의 생성 능력을 널리 사용할 수 있게 하는 개념으로, 비전문가도 쉽게 사용할 수 있는 AI 도구와 플랫폼을 의미합니다. 창작물 생성, 데이터 분석, 예측 모델링 등 다양한 분야에서 사용됩니다. 구체적인 서비스나 회사로는 OpenAI의 GPT-, Google의 DeepMind, Adobe의 Sensei와 같은 플랫폼들이 이에 해당합니다. 이러한 도구들은 사용자가 복잡한 알고리즘을 직접 다루지 않고도 AI의 혜택을 누릴 수 있게 해줍니다. [9] Augmented Connected Workforce: 증강 연결된 노동력 기술을 활용하여 직원들의 작업 능력을 향상시키고 원격 협업을 강화하는 전략입니다. 가상 현실, 증강 현실, 인공지능 등을 포함하는 다양한 기술을 활용하여 직원들이 더 효율적이고 효과적으로 협업하고 작업할 수 있도록 지원합니다. Microsoft의 HoloLens와 같은 증강 현실 기기나 Slack, Microsoft Teams와 같은 협업 플랫폼이 좋은 예입니다. 이러한 기술들은 직원들이 시간과 장소의 제약 없이, 효과적으로 협업하고 작업할 수 있는 환경을 만들어줍니다. [10] Machine Customers: 기계 고객 기계나 소프트웨어가 독립적으로 결정을 내리고 트랜잭션을 수행하는 시나리오를 말합니다. 예를 들어 IoT(사물 인터넷) 기기나 자동화 시스템이 소비자 역할을 수행하여 자동으로 주문하거나, 서비스를 요청하는 것입니다. Amazone Dash의 예시 소모품의 사용량을 체크하여 필요할 때 자동으로 주문하는 Amazon의 Dash Service가 대표적인 예입니다. 이러한 기술은 자동화된 공급 체인 관리와 효율적인 재고 관리 등에 기여하며, 비즈니스와 소비자 모두에게 편리함을 제공합니다. 딜로이트, 6가지 트렌드에 주목하다 딜로이트(Deloitte)는 2024 IT 트렌드를 아래와 같은 여섯 개의 주제로 정리했습니다. [1] 공간 컴퓨팅과 메타버스 메타버스는 기업의 주요 도구로 자리 잡고 있으며, 공간 컴퓨팅 기술도 점점 더 중요한 역할을 할 예정입니다. 디지털 트윈, 5G, 클라우드, 엣지, AI 기술에 대한 투자가 이 변화를 주도하고 있습니다. [2] 생성형 AI 생성형 AI는 비즈니스를 개선하고 혁신을 촉진하는 강력한 도구로, 전략적 계획과 특정 비즈니스 요구에 초점을 맞추어 구현되고 있습니다. 기업은 이 기술을 통해 각 분야에서 높은 경쟁력을 확보할 수 있습니다. 사용자의 시청 패턴과 선호도를 분석하여, 개인화된 추천 콘텐츠를 제공하는 Netflix와 Spotify가 가장 기본적이고 좋은 예입니다. [3] 새로운 컴퓨팅 방식의 도입 비즈니스는 기존 인프라를 더 효율적으로 활용하고, 최첨단 하드웨어를 추가하여 프로세스를 가속화하고 있습니다. 일부 기업은 이전 컴퓨팅을 넘어서 클라우드, 엣지, 양자 컴퓨팅 등 새로운 컴퓨팅 방식을 모색하고 있습니다. [4] 개발자 경험 강화(DevOps를 넘어 DevEx로) 기술 인재를 유치하고 유지하기 위해 회사들은 개발자 경험에 초점을 맞추고 있습니다. Github Copilot 같은 코드 자동 완성 및 분석 도구의 도입, 통합 개발 환경(IDE) 최적화, 컨테이너화 및 오케스트레이션 도구 도입 등이 이에 해당합니다. 이러한 노력은 결국 최종 사용자의 경험을 향상시켜 비지니스 성과를 높여줄 예정입니다. [5] 합성 미디어 시대의 진실 방어 AI의 부상으로 인해 악의적인 딥페이크 콘텐츠가 증가함에 따라, 각 기업과 조직들은 유해 콘텐츠를 식별하고 잠재적 공격을 예측하기 위한 방법을 도입하고 있습니다. 특히 2024년은 미국 대통령 선거 등 중요한 이벤트가 많기에 중요한 이슈로 떠오를 예정입니다. [6] 기술적 부채에서 기술적 웰니스로 각 회사와 조직은 기존 코어 시스템, 인프라, 데이터, 애플리케이션을 포함한 노후화된 시스템을 현대화해야 합니다. 이를 위해 정기적인 점검과 예방적 관리에 중점을 두는 새로운 접근 방식이 필요합니다. 포레스터 리서치, 생성형 AI와 디지털 혁신에 주목하다 포레스터 리서치에 따르면 전 세계 기술 분야에 대한 투자는 5.3% 증가할 것으로 예상됩니다. 이 중 금융 서비스와 헬스케어가 가장 빠른 성장세를 보일 것이고, 클라우드 컴퓨팅을 포함한 IT 서비스와 소프트웨어 분야는 2027년까지 가장 높은 비중을 차지할 예정입니다. 또한 기업이 위험을 줄이고 경쟁력을 확보하기 위해선 생성형 AI, 그리고 녹색 및 디지털 혁신 등에 주목해야 합니다. 생성형 AI 생성형 AI는 2024년에 중요한 역할을 할 것으로 예상됩니다. 대형 컨설팅 회사들은 생성형 AI에 큰 규모의 투자를 할 것이며, 해당 기업들은 경쟁력을 높이기 위해 AWS, Microsoft Azure, GCP 등과 파트너십을 맺을 것으로 예상됩니다. 이제 각 기업이 생성형 AI를 활용하여 실질적인 이윤을 추구하기 시작할 것이기 때문에, 2024년을 '의도적 AI 시대(era of intentional AI)의 원년'이라고도 말할 수 있습니다. 녹색 및 디지털 혁신 데이터 센터의 에너지 효율을 높이기 위한 노력이 진전을 보이고 있습니다. 2030년까지 데이터 센터를 탄소 중립으로 만들겠다는 약속이 강화되고 있습니다. 이는 지속 가능하고 환경친화적인 기술로의 전환의 시작을 뜻합니다. 기술 리더들의 도전 기술 분야의 리더들이 인재를 발굴하고 비즈니스 전략과 기술을 조화시키는데 어려움을 겪을 것으로 예상됩니다. 또한 AI와 관련된 기술의 수요가 빠르게 증가할 것이기에, 관련된 기술과 경험을 기르는 것도 매우 중요해지고 있습니다. 마지막으로 포레스터는 기업들의 경쟁력 유지와 성장 촉진을 위해 위와 같은 트렌드를 빠르게 받아들여야 한다고 강조했습니다. 매튜 구아리니 포레스터 리서치 부사장은, "전체 기술 전략을 핵심까지 현대화하고 조직과 운영을 크게 향상시켜야 성과를 얻을 수 있다"라고 말했습니다. 。。。。。。。。。。。。 가트너, 포레스터 리서치, 딜로이트가 전망한 2024 IT 트렌드를 살펴봤습니다. 트렌드를 아는 것에서 그치는 것이 아니라 발 빠르게 대응하는 것이 가장 중요합니다. 브레인즈컴퍼니는 트렌드에 빠르고 효과적으로 대응할 수 있도록, 제니우스(Zenius)를 통해 쿠버네티스(Kubernetes)를 비롯한 프라이빗/퍼블릭/하이브리드 클라우드 환경, 온-프레미스 환경 모두를 완벽하게 관리할 수 있는 서비스를 제공하고 있습니다. 또한 브레인즈컴퍼니의 자회사인 에이프리카는 AI 비즈니스를 위한 쿠버네티스 기반의 AI 개발 통합 플랫폼 솔루션과, 멀티 클라우드 통합 관리 플랫폼(CMP) 솔루션을 제공하고 있습니다(?에이프리카 솔루션 자세히 보기). 힘차게 시작한 2024년, 올 한 해는 또 얼마나 큰 변화가 있을까요? 이 글을 읽으시는 모두가 변화에 앞서가서 성공 스토리를 만들 수 있기를 기원합니다. 2024.01.19
기술이야기 쿠버네티스와 Helm 등 CNCF의 주요 프로젝트 기술이야기 쿠버네티스와 Helm 등 CNCF의 주요 프로젝트 지난 포스팅을 통해 정리한 것처럼 CNCF는 클라우드 네이티브 생태계의 활성화를 위해, 다양한 오픈소스 프로젝트를 개발하고 공급하고 있습니다. 또한 프로젝트 채택 단계부터 사용 빈도까지의 성숙도를 관리하기 위한, 프로세스 체계를 보유하고 있는데요. 이번 시간에는 CNCF의 주요 프로세스인 쿠버네티스(K8s), Helm 등과 CNCF 프로세스에 대해서 알아보고자 합니다. 。。。。。。。。。。。。 CNCF 프로젝트 프로세스 2023년 10월 기준으로 약 170여 개의 CNCF 프로젝트가 진행 중인데요. 이들 프로젝트는 성숙도에 따라서 샌드박스(Sandbox), 인큐베이팅(Incubating), 졸업(Graduated)으로 나뉩니다. 성숙도 수준에 대한 평가는 CNCF 위원회 멤버들에 의해서 결정되며, 졸업(Graduated) 단계의 프로젝트로 인정받기 위해서는 3분의 2 이상의 찬성 표가 필요합니다. ▲프로젝트 성숙도 단계 Step1. 샌드박스(Sandbox) CNCF의 새로운 프로젝트가 채택되면 Sandbox 단계에서 시작합니다. 이 단계에서는 프로젝트가 CNCF의 가이드라인과 정책에 부합되는지를 확인하는 절차를 주로 거칩니다. Step2. 인큐베이팅(Incubating) Sandbox를 통과한 프로젝트는 Incubating 단계로 집입하며, 이 단계에서는 프로젝트의 커뮤니티와 기술적 성숙도를 더욱 강화하도록 합니다. 해당 프로젝트의 커뮤니티의 규모와 다양성을 평가하고 기능들의 안정성을 검증합니다. Step3. 졸업(Graduated) Incubating 단계를 성공적으로 통과한 프로젝트는 Graduated 단계로 올라갑니다. 높은 수준의 품질과 안정성이 보장되어야 이 단계에 올라갈 수 있는 거죠. 커뮤니티가 활발하게 유지되고 관련자의 참여가 적극적으로 이루어져야 하며, 실제 사용 사례에서 성공한 경험들이 존재해야 합니다. Step4. 사용 사례 검증 Graduated 프로젝트 중 실제로 다양한 산업에서 사용되고, 기업과 조직이 해당 프로젝트를 많이 채택하는지를 평가하여, 지속적인 성장 가능성과 성숙도를 평가합니다. CNCF에서 관리하는 프로젝트 영역은 꽤 넓고 다양한데요. 애플리케이션 개발을 위한 도구부터 컨테이너 오케스트레이션, 서비스 프로비저닝, 모니터링 도구 등 소프트웨어 개발부터 운영까지를 위한 도구들이 존재합니다. 이제부터는 가장 성공적인 프로젝트인 쿠버네티스를 포함하여, Incubating 단계 이상의 프로젝트를 알아보고자 합니다. CNCF의 주요 프로젝트 쿠버네티스(kubernetes) 쿠버네티스는 CNCF에서 최초로 Graduated 단계에 진입한 프로젝트입니다. 컨테이너 오케스트레이션 기능을 통해, 애플리케이션 컨테이너 기반으로 자동화하고 확장할 수 있는 플랫폼을 제공합니다. A. 컨테이너 오케스트레이션 기능 컨테이너화된 애플리케이션을 자동으로 배포·확장하고 관리하는 기능을 제공합니다. 애플리케이션의 변경이 필요할 경우, 개발자가 애플리케이션을 빠르게 수정 및 배포하고 운영할 수 있게 합니다. B. 스케일링 기능 리소스 사용량이나 사용자 트래픽 증가에 따라 자동으로 애플리케이션을 확장·축소하는 오토 스케일링 기능을 제공합니다. C. 롤백 기능 문제가 발생된 애플리케이션의 경우, 롤백 기능을 제공하여 서비스 장애에 신속히 대응합니다. Helm Helm은 쿠버네티스 환경에서 애플리케이션을 관리하기 위한 도구로 사용됩니다. Helm은 차트라고 불리는 패키지로 애플리케이션을 패키징 하는데요. 이 차트에는 애플리케이션의 설치부터 관리에 필요한 모든 것을 포함합니다. 쉽게 말하면 이 차트라는 기능을 통해 애플리케이션을 탬플릿화하고, 배포하며, 롤백 및 공유하는 역할을 하는 프로젝트입니다. Envoy ▲Envoy를 사용하는 주요 업체 리스트 ⓒenvoyproxy.io Envoy는 클라우드 네이티브 환경에서 애플리케이션의 네트워크 트래픽을 관리하고, 제어하기 위한 프로젝트입니다. 프록시 기능을 수행하고, 클라이언트 서버 간의 통신을 관리하며, 애플리케이션 간의 통신의 보안 향상시킵니다. 여러 애플리케이션 사이에서 부하 분산을 자동화하여 가용성과 성능을 향상시킬 수 있도록 합니다. 부하 분산을 함에도 불구하고 특정 시스템에 부하가 생겨 장애 발생이 생길 경우, 트래픽을 가중치에 따라 다른 시스템으로 분산시키는 역할을 합니다. Containerd Containerd는 쿠버네티스 환경에서 컨테이너를 만들고 실행하는 데 도움을 주는 프로젝트입니다. 개발자가 컨테이너를 만들고 실행시키는 역할을 하며, 필요할 때는 중지하거나 삭제하는 작업을 지원합니다. 컨테이너 실행에 필요한 파일과 설정을 모아 놓은 이미지를 다운로드하고, 저장하며, 불러오는 역할과 같은 이미지 관리 기능도 제공하고 있습니다. Prometheus Prometheus는 시스템이나 애플리케이션의 동작을 실시간으로 모니터링하고, 이상 상황이 발생할 경우 알림을 줄 수 있는 도구입니다. 다양한 데이터를 수집하고 기록하여 차후 분석 용도로 활용할 수 있습니다. 또한 핵심 지표들을 유형 및 종류별로 제공하여, 다각적인 관점에서의 관찰을 지원합니다. 시스템의 리소스부터 애플리케이션의 동작 및 응답 상태를 적시에 확인하게 해줍니다. Fluentd ▲Fluentd 개념 설명 ⓒfluentd.org Fluentd는 다양한 시스템에서 발생되는 로그 데이터를 수집·처리·전송하는 데이터 수집 도구로서, 스플렁크(SPLUNK)와 유사한 역할을 수행하는 프로젝트입니다. 다양한 소스에서 발생되는 로그를 수집할 수 있을 뿐만 아니라, 원하는 목적지의 저장소까지 전송하는 역할을 수행합니다. 예를 들어 Syslog 등을 실시간 수집하고, 이를 Elasticsearch나 Amazon S3 등의 원하는 저장소로 목적지를 설정할 수 있게 합니다. 。。。。。。。。。。。。 지금까지 살펴본 것처럼, CNCF에서 클라우드 네이티브 생태계 활성화를 위해 다양한 프로젝트를 진행하고 있는데요. 브레인즈컴퍼니 역시 클라우드 네이티브 모니터링을 위한 다양한 제품과 기능 등을 속속 출시하고 있습니다. 대표 제품인 제니우스(Zenius)를 통해 클라우드 네이티브의 핵심요소인 컨테이너(Docker)의 상태와 리소를 실시간으로 모니터링할 수 있습니다. MSA 환경을 만들기 위한 필수 도구인 쿠버네티스(K8s)의 Cluster·Node·Pod 등의 구성과 변화를 관찰하며, 이상 상황 알림을 통해 선제적 장애 대응 또한 가능합니다. Zenius에 대해 더 자세히 알고 싶으시다면, 바로 아래 링크를 클릭해 주세요! ?더보기 Zenius로 클라우드 네이티브 모니터링하기 CNCF 세 가지 핵심가치(1탄)도 있어요 2024.01.03

1 2