이동통신망은 새로운 기술과 서비스 도입으로 점점 더 복잡해지고 있다. 특히 5G 망 전개 시나리오는 성격이 다른 무선액세스기술(RAT: Radio Access Technology)과 다양한 형태의 셀(클라우드 기지국, 매크로셀, 마이크로셀, 피코셀, 펨토셀)들이 공존하는 Heterogeneous Networks(HetNets)을 특징으로 한다. 이 맥락에서 망 사업자는 CAPEX와 OPEX 모두를 줄이면서 새로운 고품질 서비스를 제공해야 하는 과제에 직면한다. 이를 해결하기 위하여 자가 구성, 자가 최적화와 자가 치유 세 가지 모드로 구성된 자가 구성 네트워크(SON: Self-Organizing Network)에 대한 연구들이 오랫동안 진행되어 오고 있다. 2008년 Next Generation Mobile Networks(NGMN) Alliance는 SON을 차세대 네트워크의 주요 설계 원칙 중 하나로 고려하고 있다. 그러나 기술, 서비스, 셀 유형 등 증가에 따라 망 계획과 운영이 점점 더 복잡해지고 있다. 이러한 복잡성을 해결하기 위해 자율적 망 관리의 대부분 절차를 자동화시키는 SON이 최근 상용화되는 기계학습(ML: Machine Learning)의 발전으로 새로이 각광 받고 있다.
SON 중 자가 치유는 시스템 내 결함이 발생하자 마자 결함을 감지하고 서비스 품질에 미치는 영향을 최소화하는 과정이 자율적으로 동작하는 것을 의미한다. 자가 치유 기능은 다음과 같은 구체적인 원인으로 더 넓은 범위(원인 및 증상 유형에 따라)를 갖는다. 첫째, 셀의 비정상적인 동작이 특정 망 요소와 관련이 없는 경우로 간섭, 이웃 셀의 잘못된 정의, 잘못된 매개 변수 정의 등이 있다. 둘째, 일반적으로 단일 결함이 여러 개 알람을 발생시킬 수 있고, 동일 알람이 다른 결함을 의미할 수 있으며, 일부 망 조건이 변경될 때 결함 없이 일부 알람이 발생하기 때문에 일반적으로 수천 개의 알람에서 원인을 정확하게 판별하는 것은 어렵다. 셋째, 때로 알람 메시지를 전송할 수 없는 경우로 셀 하드웨어 구성 요소가 고장 나거나 outage 상태로 망 상태 정보를 전송하지 않는 수면 셀인 경우가 문제다.
SON 기술 중 자가 구성과 자가 최적화 연구는 활발했지만, 결함 검출, 결함 원인 진단과 outage 복구의 세 가지 모드로 구성된 자가 치유에 대한 연구는 상대적으로 관심이 적었다. 그 이유는 기본적으로 이동통신 동작 환경이 지역별, 시간대별로 달라서 증상에 대한 원인 식별을 전문가에 의존하게 된다는 것으로, 구체적으로 다음과 같은 점이 자가 치유에 대한 연구를 어렵게 한다. 첫째, 복잡하고 다이내믹한 이동통신 운영 환경으로부터 얻은 알람, 측정 데이터, 미 측정된 데이터 등으로부터 결함 검출을 위한 기준이 상황별로 달라서 실시간 결함 검출이 어렵다. 둘째, 검출된 결함을 유발시킨 원인이 셀 동작 조건과 환경에 따라 다양해서 실시간으로 결함 원인을 특정하기 어렵다. 셋째, 결함 원인에 대한 복구 방안도 셀 동작 조건과 환경에 따라 다양해서 최적의 outage 복구 방안 제시가 어렵다. 넷째, 결함 검출과 결함 진단 그리고 outage 복구 전 단계를 자동화시키기 위해서 미 활용된 데이터가 많고, 대처 방안도 일부 전문가의 지식으로 남아 있고, 사업자별로도 Key Performance Indicators(KPIs), 진단 방법, outage 복구 기준이 달라 학문적 연구가 어려웠다는 점이다.
한편, 3GPP(Third Generation Partnership Project)에서는 Rel. 9부터 자가 치유 프로세스와 사례의 표준화를 시작하였으며, 2012년 Rel. 11에서 자가 치유 개념과 요구사항을 만들었다. 최근 많은 관심을 끄는 자가 치유 사례 중 하나는 outage 상태에 있는 셀 자동 검출이다. 자가 치유 솔루션은 outage 시나리오를 극복하고, 망에서 발생하는 disruption 최소화를 위해 복구 메커니즘을 수행해야 한다. 그러나 현 방법은 셀 outage의 수동 검출이므로 검출에 수 일 또는 수 주일이 걸린다. 향후 이동통신의 규모와 복잡성 증가에 따라 수동 절차는 충분하지 않으며 검출과 복구를 포함한 자율 관리가 SON에 제공되어야 한다. 이 outage 문제해결을 위한 지능형 솔루션이 연구되어 왔다.
그럼에도 불구하고 상기 어려움을 해결하기 위해 자가 치유 자동화에 ML 기술을 적용한 학술적 연구는 2000년 중반부터 시작되었다. 그러나 관련 기존 연구들도 서로 다른 용어와 개념을 사용하였으며, 특정 RAT만을 위한 자가 치유를 연구해 왔다. 그리고 미래 이동통신망에서는 결함과 비정상을 예측해서 실제 상황 발생 전에 필요한 조치를 취하는 proactive 시나리오로 전환될 것으로 예상된다. 따라서 자가 치유 관점에서 사전 대응 패러다임으로 전환하기 위해서 우선 ML기반 자가 치유 프레임워크를 설계하고, 운영 전문가가 보유한 데이터와 이동통신망에서 수집된 측정 데이터를 기반으로 검출된 결함, 검출된 결함에 대한 진단, 그리고 그 진단에 대한 outage 복구에 적합한 ML을 선택하기 위한 연구개발이 필요하다.
본 고의 Ⅱ장에서는 자가 치유 프레임워크를, Ⅲ장에서는 ML기반 결함 검출을, Ⅳ장에서는 ML기반 결함 진단을, Ⅴ장에서는 ML기반 outage 복구에 대한 연구 동향을 분석 정리하였다.