동향

Feature 저장소 기술 동향

분야

정보/통신

발행기관

한국전자통신연구원

발행일

2021.04.

URL


AI 기반 응용 서비스를 개발하는 AI 프로젝트는 일반적으로 주어진 데이터를 통해
AI 모델을 학습하고, 학습된 모델을 이용하여 예측 및 추론을 시행한다.
이를 위해 데이터 플랫폼은 다양한 데이터 소스로부터 데이터를 취득하고,
이를 저장하는 데이터 저장소 구축, ETL을 포함한 데이터 플로우 관리 그리고 Feature 엔지니어링 등의 작업 수행을 통해 최종적으로 AI 모델 개발에 필요한 훈련 데이터를 생성하는 데이터 공학 작업을 수행한다.

다음으로, AI 플랫폼은 데이터 플랫폼에서 생성한 훈련 데이터를 활용하여
모델 학습, 모델 선택 및 검증, 하이퍼파라미터 최적화, 서로 다른 실행 환경을 고려한
모델 배포 기술을 통해 AI 응용 서비스에 개발된 모델을 적용하고, 이후 운영 중인 모델의 성능을 지속적으로 관찰하면서 모델 개선 필요성 여부를 판단하는 데이터 과학 작업을 수행한다[1].


두 플랫폼이 담당하는 서로 다른 성격의 업무 처리 효율성을 위하여,
데이터 플랫폼은 통상적으로 데이터 집중적인 작업 처리에 적합한 하둡(Ha-doop) 계열의
대규모 분산처리 시스템을 기반으로 구축하는 반면에, AI 플랫폼은 데이터 및 계산 집중적인 작업 처리에 적합한 GPU와 같은 전용처리 장치 또는 고성능 서버 그리고 최근에는 클라우드 컴퓨팅 기술 등에 기반한 시스템을 통해 구축하고 있다.

AI 프로젝트는 기존의 전통적 SW 프로젝트가 주로 소프트웨어 코딩 작업 위주로
진행되는 것과는 달리, 대규모 데이터에 내재하는 의미를 도출하기 위한
실험적(Experimental), 반복적(Iterative), 탐색적(Exploratory) 작업을 수행하는 특성으로 인하여
데이터 플랫폼 작업과 AI 플랫폼 작업을 순환 반복하는 경우가 빈번하게 발생한다.

즉, 데이터 플랫폼의 작업 결과인 특정 훈련 데이터를 기반으로
AI 플랫폼에서 모델을 개발하다가 원하는 성능 목표에 도달하지 못하거나
모델이 제대로 학습되지 않는 경우 다시 데이터 플랫폼 작업으로 돌아가서 훈련 데이터를 수정한 후 AI 플랫폼에서 모델을 개발하는 방식으로 진행되는데,
이는 AI 프로젝트 수행에서 데이터 플랫폼과 AI 플랫폼을 연계하는 협업의 효율성이 AI 프로젝트 소요 시간 및 개발 비용에 중대한 영향을 끼칠 수 있음을 시사한다[2].


현재, AI 프로젝트 수행에서 TensorFlow, Keras, PyTorch, Caffe 등의 다양한 ML 프레임워크와
더불어 Airflow, Argo, Luigi, MLflow, Kubeflow, Tensor-FlowExtended 등의 ML 워크플로우 및
파이프라인 관리도구들이 널리 활용되고 있지만, 이러한 도구들은 주로 AI 모델의 개발, 배포, 적용 등 AI 플랫폼 관련 작업 또는 AI 프로젝트 수행에 필요한 종단 간 워크플로우 구축 및 관리를 지원하는 기능에 집중하고 있으며, 데이터 플랫폼과 AI 플랫폼이 유기적으로 연계·통합하여 AI 프로젝트의 수행 효율성을 제공하기 위한 도구 및 기술 개발은 미흡한 실정이다[3].

본 고에서는 AI 프로젝트 진행 과정에서 데이터 플랫폼에 기반한 데이터 공학 작업과
AI 플랫폼에 기반한 데이터 과학 작업 사이의 원활한 연계·협업 도구로서
Feature 저장소 도입의 필요성과 중요성을 강조하기 위하여 Feature 저장소의 개념과 특성 및
주요 기능에 대한 설명에 이어 현재 널리 활용되는 주요 Feature 저장소의 현황 소개를 통해 Feature 저장소의 기술 동향을 알아보고자 한다.

KEYWORDS 데이터 플랫폼, 데이터 공학, AI 플랫폼, 데이터 과학, 협업 환경, Feature 저장소

ABSTRACT
In this paper, we discussed the necessity and importance of introducing feature stores to establish a collaborative environment between data engineering work and data science work. We examined the technology trends of feature stores by analyzing the status of some major feature stores. Moreover, by introducing a feature store, we can reduce the cost of performing artificial intelligence (AI) projects and improve the performance and reliability of AI models and the convenience of model operation. The future task is to establish technical requirements for establishing a collaborative environment between data engineering work and data science work and develop a solution for providing a collaborative environment based on this. 


<목차>

Ⅰ. 서론
Ⅱ. Feature 저장소

  1. Feature 저장소 개념
  2. Feature 저장소 기반 협업
Ⅲ. Feature 저장소 기술 동향
  1. Michelangelo
  2. Hopsworks
  3. Feast
Ⅳ. 결론 및 향후 과제

* 출처 : ETRI 전자통신동향분석 제36권 제2호 통권 189호 2021년 4월호
* 자세한 내용은 첨부된 파일을 참고하여 주시기 바랍니다.

리포트 평점  
해당 콘텐츠에 대한 회원님의 소중한 평가를 부탁드립니다.
0.0 (0개의 평가)
평가하기
등록된 댓글이 없습니다.