동향

Machine learning applications in genetics and genomics

행사&학회소개
- Abstract
- Introduction
- Stages of machine learning
- Supervised versus unsupervised learning
- Generative versus discriminative modelling
- Incorporating prior knowledge
- Handling heterogeneous data
- Feature selection
- Imbalanced class sizes
- Handling missing data
- Modelling dependence among examples
- Conclusions
보고서작성신청

경험을 향상시키는 컴퓨터 알고리즘을 개발을 목표로 하는 기계학습의 분야는 대용량의 복잡한 데이터 분석에서 컴퓨터가 효율적으로 인간을 도울 수 있기를 기대한다. 본 논문에서는 후성유전체, 단백질체, 대사체 데이터를 포함한 대용량 전체 게놈 서열 분석을 위한 기계학습 기반 어플리케이션의 전반적 내용을 설명한다. 생성 (generative) 및 판별(discriminative) 모델링 접근법뿐 만 아니라, 지도(supervised), 준지도(semi-supervised), 자율(unsupervised) 기계학습 방법 기반의 어플리케이션에서의 주안점 및 현재 도전과제에 대해서 논의한다. 더 나아가 유전학/유전체 데이터 연구를 위한 기계학습 방법과 실용적 어플리케이션의 선택에 도움을 줄 수 있는 일반적 가이드라인을 제공한다.

본 논문은 현재 다양한 분야에서 각광받고 있는 기계학습 기법 기반 대용량 유전체 분석에 대한 전반적 연구, 응용 및 최근 동향에 대해서 소개하고 있어, 1000 Genomes Project, 100,000 Genomes Project, ENCODE 등 대용량 유전체 서열 데이터가 산출되고 있는 현시점에서 유전체 연구 관련 연구자들에게 매우 유용한 자료가 될 것으로 여겨진다.