네트워크

수학

데이터마이닝 연구실

서울대학교 데이터마이닝 연구실입니다. 데이터마이닝(Data Mining)이란 대용량 데이터베이스에 존재하는 데이터간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 의사결정을 돕는 유용한 정보로 변환하는 일련의 과정이다. 최근의 비즈니스 환경에서는 시장 경쟁이 심화되어 정보력이 기업 경쟁력의 척도가 되었다. 필요한 정보의 성격도 "무슨 일이 일어났나?" 와 같은 과거에 대한 이해에서, "무슨 일이 일어날 것인가?"와 같은 미래에 대한 예측으로 변화하고 있다. 이를 위하여 분석 모델링 작업을 하는 것이 바로 데이터마이닝이다. 컴퓨터 기술의 발전에 힘입어, 대량의 데이터가 축적되어있어 데이터마이닝을 위한 훌륭한 토양이 마련된 것이다. 최근에는 빅데이터 분석 (big data analytics) 이라는 표현도 많이 사용된다.

데이터마이닝은 기술 모델링(Descriptive Modeling)예측 모델링(Predictive Modeling)으로 나누어진다. 전자는, 데이터로부터 과거와 현재에 대한 통찰 (insight) 을 찾아내는 것으로, 연관규칙 발견과 세분화 등이 있다. 후자는, 데이터로부터 모델을 만들어 미래를 예측 (prediction) 하는 것으로, 분류와 예측이 있다. 대상 데이터는 기존의 숫자와 같이 정형적인 데이터뿐만 아니라, 소셜 미디어나 조직 내에 존재하는 비정형 문서(text) 데이터, 영상(image 및 video) 데이터등이 있다.

데이터마이닝의 활용 분야는 매우 다양하다. 마케팅 분야에서는 고객의 구매 패턴을 분석하여 주요 고객에게 집중적으로 판촉활동을 하는 타겟 켐페인, 금융 분야에서는 신용 평가, 신용카드 사기 탐지, 증권가격 예측, 포트폴리오 평가 등을 하고 있다. 통신 분야에서는 고객 이탈 방지, 문자/패턴 인식, 보안 관리 등에, 의료 분야에서는 질병 진단 및 유전자 분석 등에, 에너지 분야에서는 전력수요 예측 및 자원 탐사 등에, 제조업에서는 신제품/신서비스 개발, 불량 예지, 공장 자동화, 재고 및 수요 관리 등에 활용하고 있다.

현재 국내외에 이 분야의 전문가들이 턱없이 부족하여, 기회를 100% 살리지 못하고 있다. 2012년 2월 뉴욕타임즈지에 따르면 미국 내에서만 데이터 분석가가 14만~19만이 당장 필요하다고 한다.

본 연구실은 1993년 포스텍 뉴럴네트워크 연구실로 설립된 이후, 소비자 반응 모델링, 키스트로크기반 보안, 공정 자동화 및 이상 탐지, 금융 예측, 의료진단, 인텔리전트 샘플링 등의 분야 관련 연구주제를 수행하였으며, 국내외 저널 및 학술대회에 160여 편의 논문 및 특허를 발표하였고, 수 건의 국내외 특허와 상용 소프트웨어를 개발하였다. 2013년 3월 기준으로 박사 8명, 석사 55명을 배출하였고, 현재 박사과정 11명, 석사과정 6명이 데이터마이닝 연구에 몰두하고 있다. 현재 수행 중인 학술적 연구 주제는 데이터 샘플링, 이상 탐지, 텍스트 분석, 키스트로크 기반의 사용자 인증 및 계정 공유이며, 응용 연구 주제로는 고객 반응 모델링, 반도체 공정 이상 탐지, 데이터 기반 서비스 개발, 직원 채용 성과 분석 등이다.


국가

대한민국

소속기관

서울대학교 (학교)

연락처

책임자

조성준 zoon@snu.ac.kr