SMS, APM, ITSM, SIEM, NMS, DBMS 등 끊임없이 진화하는 브레인즈컴퍼니 동료들의 솔직담백한 이야기를 들어보세요.
이상탐지(Anomaly Detection)는 시계열 데이터에서 과거 또는 비슷한 시점의 다른 데이터의 보편적인 패턴에서 벗어나거나, 벗어나려는 징후가 있는 드문 패턴이나 사실, 대상 개체를 찾아내는 데이터 분석의 한 분야입니다. 시계열이 아닌 것 중에 이상한 것을 찾는 것은 대부분 아웃라이어 탐지에서 다루고 있으나, 아웃라이어 탐지와 이상탐지를 구분하지 않고 넓은 의미에서 이상탐지로 취급합니다.
기존에는 이상탐지를 위해 통계학 기술을 많이 사용해 왔으나, 최근에는 머신러닝 기술을 이상탐지에 적용하는 사례가 늘어가고 있습니다. 당사의 ITIM 제품인 Zenius EMS는 과거 성능 패턴에 대해서 통계 기반의 상∙하한 동적임계치를 구한 뒤, 임계치를 벗어날 가능성이 있는 성능치에 대한 장애 발생가능성을 선제적으로 통보해주는 Proactive(사전장애예측-이상탐지) 기능이 이미 구현돼 있습니다.
필자는 최근에 주목받고 있는 AI 기술을 접목해 단일 성능치가 아닌 메트릭 데이터 셋에 대한 이상탐지 기능을 구현하기 위한 연구를 진행했고 그 결과에 대해 기술하고자 합니다.
머신러닝으로 이상탐지를 구현하는 학습법은 ▲지도학습 ▲비지도학습 ▲반지도학습으로 구분할 수 있습니다. 지도학습 기반으로 머신러닝을 구현하기 위해서는 기존에 수집된 데이터 중 정상적인 데이터 셋과 이상한 것으로 판별된 데이터 셋을 적절히 섞어서 학습데이터 셋을 만들어야 합니다. 그러나 실제 수집되는 데이터에서 이상 사례로 판별된 학습 데이터를 확보화는 것은 상당히 어렵습니다.
소량의 정답데이터를 이용해서 비슷한 것을 찾아 내거나 학습데이터를 확장시키는 반지도학습을 고려할 수도 있지만, 이 경우도 고객사에 제품을 납품한 이후 일정 시간동안 이상사례에 대한 학습 데이터를 수집해야 하고, 좋은 모델을 만드는데 시간이 너무 오래 소요됩니다. 따라서, 고객사에 제품 납품 후 머신러닝을 빠르게 적용할 수 있도록 비지도학습을 통해 이상탐지를 구현할 수 있는 방법을 중점적으로 고려하게 됐습니다.
ITIM 제품인 Zenius EMS가 수집하는 메트릭 데이터는 대부분 정상 데이터이므로 수집된 데이터 중 일부 비정상 데이터(감시설정에 의해 이벤트가 발생된 데이터)를 자동으로 제거해서 비지도학습을 수행했습니다. 학습에 사용되는 데이터는 모두 정상 데이터이므로 PCA(Principal Component Analysis)를 이용해 차원을 축소하고 복원하는 과정을 통해 비정상 데이터를 검출할 수도 있으나 이번 연구에서는 Neural Network의 Autoencoder 기반의 머신러닝 기법을 사용했습니다. Autoencoder는 입력을 Latent Variable로 압축하는 Encoding과, 이를 다시 원본에 가깝게 복원해내는 Decoding 과정으로 진행되며 이를 통해 데이터의 중요한 정보들만 압축적으로 학습할 수 있습니다.
<그림 설명: Autoencoder 개요>
위 그림은 Autoencoder의 기본적인 원리를 나타내고 있습니다. 정상 데이터셋을 통해 학습된 Autoencoder에 정상 샘플을 입력하게 되면 Decoder를 통해 나온 출력이 정상 샘플과 유사하게 잘 복원되지만 비정상적인 샘플을 입력하게 되면, 입력과 출력 값의 차이가 도드라지게 발생하게 되므로 비정상 샘플을 검출할 수 있습니다.
다만, Autoencoder의 Code Size(Latent Variable의 Dimension) 같은 Hyper-Parameter에 따라 전반적인 복원 성능이 좌우되기 때문에 판정 정확도가 지도학습에 비해 다소 불안정하다는 단점이 존재합니다. 또, Autoencoder의 입력과 출력의 차이를 어떻게 정의할 것인지, 어떤 Loss Function을 사용해서 Autoencoder를 학습시킬지 등 여러가지 요인에 따라 성능이 크게 달라질 수 있습니다. 이를 보완하기 위해 ICLE 2018 Conference에서 발표된 Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection을 이용했습니다.
(https://iclr.cc/Conferences/2018/Schedule?showEvent=126)
DAGMM은 축소된 차원과 복원 오차에 대한 특성을 유지하여 입력 값의 중요 정보를 저차원상에서도 보존합니다. DAGMM에서는 차원 축소를 위한 Compression Network에 Autoencoder를 사용해 저차원상의 자료와 축소된 저차원상에서 original data 공간으로의 복원 에러에 대한 특성 정보를 계산할 수 있습니다. DAGMM은 학습된 저차원 공간에서 GMM(Gaussian Mixture Model)을 활용해 복잡한 구조를 가진 입력 자료에 대한 밀도 함수 추정을 수행합니다. 차원 축소와 밀도 함수 추정을 동시에 최적화하기 위해, DAGMM은 저차원 입력을 계산한 뒤, 혼합 밀도 함수를 추정하는 Estimation Network를 사용하고, 입력 자료를 저차원으로 축소시킨 뒤 에너지/가능도 평가 가능하게 해 GMM의 모수를 직접 추정합니다.
<그림 설명: DAGMM 개요>
DAGMM은 위 그림과 같이 두개의 주요 요소인 Compression Network와 Estimation Network로 구성돼 있습니다. Compression Network는 Deep Autoencoder를 사용해 입력 자료의 차원을 축소하고, Estimation Network는 차원이 축소된 자료를 입력 값으로 해, GMM의 가능도/에너지를 예측합니다. DAGMM에 대한 자세한 내용을 원하시는 경우, ICLR 2018 Conference 홈페이지의 논문 및 자료를 참조해 주십시오.
ITIM 제품인 Zenius EMS의 이상탐지를 위해 입력 데이터 셋은 메트릭 데이터로 구성합니다. 연관관계가 있다고 판단되는 메트릭 데이터 중 CPU Usage, Memory Usage, Disk Busy Rate, Network In bps 값을 4차원 데이터셋으로 구성한 후, DAGMM의 Compression Network를 통해 차원 축소를 진행하고 Estimation Network를 통해 가능도 및 에너지 예측을 진행했습니다.
입력 데이터셋은 실제 장비의 메트릭 데이터 중 최근 1000개의 데이터를 사용해 구성했으며, 모델의 정확성을 확인하기 위해 2개의 이상치 데이터를 혼합했습니다. 입력 데이터셋으로 사용된 4차원 데이터를 도식화하기 위해 3차원 Scatter 차트를 사용해서 데이터를 출력하면 아래와 같습니다.
<그림 설명: 입력 데이터셋(1)>
위의 그림으로 CPU Usage, Memory Usage, Disk Busy Rate의 관계를 확인할 수 있으며, 이상치 데이터는 붉은 점으로 표시됐습니다.
<그림 설명: 입력 데이터셋(2)>
위의 그림으로 CPU Usage, Memory Usage, Network Input bps의 관계를 확인할 수 있으며, 이상치 데이터는 역시 붉은 점으로 표시됐습니다.
입력 데이터셋에 대해 DAGMM epoch 횟수를 1000번으로 학습하여 모델을 생성할 경우 아래와 같은 Energy 밀도와 값을 얻을 수 있습니다.
<그림 설명: DAGMM Energy 밀도(1)>
<그림 설명: DAGMM Energy 밀도(2)>
생성될 모델에 대해 Energy 값의 99%를 초과할 경우를 이상치 데이터 셋으로 정의할 경우 아래와 같이 입력 데이터셋에서 이상치 데이터로 입력한 값들에 대해 정확하게 이상 징후를 탐지합니다.
이상과 같이 ITIM 제품인 Zenius EMS의 메트릭 데이터에 대한 이상 징후 탐지를 수행하는 방법에 대한 개괄적인 내용을 설명했으며, 이 모델은 당사의 Zenius EMS 시스템의 실시간 이상징후 탐지에 적용할 예정입니다.
개발5그룹에서 Zenius AI 구현을 총괄하고 있습니다.