데이터마이닝(Data Mining)이란 대용량 데이터베이스에 존재하는 데이터간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 의사결정을 돕는 유용한 정보로 변환하는 일련의 과정이다. 최근의 비즈니스 환경에서는 시장 경쟁이 심화되어 정보력이 기업 경쟁력의 척도가 되었다. 필요한 정보의 성격도 \"무슨 일이 일어났나?\" 와 같은 과거에 대한 이해에서, \"무슨 일이 일어날 것인가?\"와 같은 미래에 대한 예측으로 변화하고 있다. 이를 위하여 분석 모델링 작업을 하는 것이 바로 데이터마이닝이다. 컴퓨터 기술의 발전에 힘입어, 대량의 데이터가 축적되어있어 데이터 마이닝을 위한 훌륭한 토양이 마련된 것이다.
데이터마이닝 모델링은 기술 모델링(Descriptive Modeling)과 예측 모델링(Predictive Modeling)으로 나누어진다. 전자는, 주어진 데이터를 설명하는 패턴을 찾아내는 것이 주 목적으로써, 연관규칙 발견과 세분화 등이 있다. 후자는, 주어진 데이터에 근거하여 모델을 만들고 이 모델을 이용하여 새로운 case에 대한 예측을 하는 것으로, 분류와 예측이 있다. 최근에는 비정형 데이터인 문서(text) 데이터, 네트웍 데이터 및 영상(image) 데이터를 마이닝하는 연구 및 응용이 활발하다.
데이터마이닝의 활용 분야는 매우 다양하다. 마케팅 분야에서는 고객의 구매 패턴을 분석하여 주요 고객에게 집중적으로 판촉활동을 하는 타게팅(Target Marketing) 및 고객 관계 관리(Customer Relationship Management) 등을, 금융 분야에서는 신용 평가, 신용카드 사기 탐지, 증권가격 예측, 포트폴리오 평가 등을 하고 있다. 통신 분야에서는 고객 이탈 방지, 문자/패턴 인식, 보안 관리 등에, 의료 분야에서는 질병 진단 및 유전자 분석 등에, 에너지 분야에서는 전력수요 예측 및 자원 탐사 등에, 제조업에서는 불량 예지, 공장 자동화, 재고 및 수요 관리 등에 활용하고 있다.
본 연구실은 1993년 포스텍 뉴럴네트워크 연구실로 설립된 이후, 소비자 반응 모델링, 키스트로크기반 보안, 공정 자동화 및 이상 탐지, 금융 예측, 의료진단, 인텔리전트 샘플링 등의 분야 관련 연구주제를 수행하였으며, 국내외 저널 및 학술대회에 150여 편의 논문 및 특허를 발표하였다. 2012년 현재 박사 6명, 석사 53명을 배출하였고, 현재 박사과정 12명, 석사과정 6명이 데이터마이닝 연구에 몰두하고 있다. 현재 수행 중인 연구 주제는 데이터 선택, 이상 탐지, 텍스트 분석 및 키스트로크 기반의 사용자 인증 및 계정 공유이며, 공정 이상 탐지, 고객 반응 모델링, 의료 진단, 직원 채용 성과 분석 등의 분야에 응용 연구도 진행한다.