2010-02-04
org.kosen.entty.User@5f539ced
김세윤(rkdhs2)
- 1
안녕하세요? 생명정보학 관련하여
PCA와 MDS의 차이에 대해서 궁금해서 글 올립니다.
두 방법의 algorithm에 차이가 있나요?
찾아본 결과 PCA는 주성분 점수를 이용하여 실험 개체들을 그룹으로 나누는데 사용되고..
MDS는 cluster analysis를 하여, 분석을 통해 그룹 개수가 결정되고 개체가 분류되는
방법을 이용한 p개의 변수를 이용하여 개체들을 저차원 공간에 표현하는 방법..
이라고 나와있었는데요.
이 내용만을 읽어봐서는 뚜렷한 차이를 찾기 어려워서요.
bioinformatics에 대한 개념이 충분하지 못한 저도 알기 쉽게
분명한 차이를 알려주실 수 있으실까요?
- PCA
- MDS
지식의 출발은 질문, 모든 지식의 완성은 답변!
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
답변 1
-
답변
이상후님의 답변
2010-02-04- 3
> >안녕하세요? 생명정보학 관련하여 > >PCA와 MDS의 차이에 대해서 궁금해서 글 올립니다. > >두 방법의 algorithm에 차이가 있나요? > >찾아본 결과 PCA는 주성분 점수를 이용하여 실험 개체들을 그룹으로 나누는데 사용되고.. > >MDS는 cluster analysis를 하여, 분석을 통해 그룹 개수가 결정되고 개체가 분류되는 > >방법을 이용한 p개의 변수를 이용하여 개체들을 저차원 공간에 표현하는 방법.. > >이라고 나와있었는데요. > >이 내용만을 읽어봐서는 뚜렷한 차이를 찾기 어려워서요. > >bioinformatics에 대한 개념이 충분하지 못한 저도 알기 쉽게 > >분명한 차이를 알려주실 수 있으실까요? 마이크로어레이 자료에서의 군집분석을 예를 들어 설명하면, 군집분석은 같은 군집 내의 개체(표본 또는 유전자) 간에는 유사성이 높고 서로 다른 군집 간에 소속된 개체 간에는 유사성을 작게 군집을 형성합니다. 군집분석 알고리즘들은 거리 중심의 알고리즘과 차원 축소에 초점을 맞춘 알고리즘으로 구분 할 수 있습니다. 거리 중심의 알고리즘에는 계층적 군집(hierarchical clustering) 알고리즘, K-평균 군집(K-means clustering) 알고리즘 및 Self-Organizing Maps(SOM) 알고리즘 등이 있습니다. 차원 축소 알고리즘으로는 통계분석에 널리 쓰이는 주성분 분석(Principal Component Analysis, PCA) 알고리즘, Gene-Shaving(GS) 알고리즘 및 다차원 척도법 (MultiDimensional Scaling, MDS) 등이 있습니다. 주성분 분석(Principal Component Analysis, PCA)은 원래의 변수들을 선형 변환하여 주성분(principla component)라고 불리는 새로운 변수를 만들어 내는 분석법입니다. 즉, 원자료의 정보의 손실을 적게하면서 변수의 수를 줄여서 차원을 축소하는 방법입니다. 기존의 대부분의 통계분석은 표본들의 수가 변수들(유전자들)의 수보다 큰 경우를 다루고 있으나, 마이크로어레이 자료는 유전자의 개수가 표본 수보다 훨씬 크기 때문에 가능하면 유전자의 수를 줄여서 분석할 필요가 있습니다. 그러나 유전자 수를 줄이게 되면 그 만큼 정보를 잃게 되는 문제점이 생기게 됩니다. 이런 맥락에서 여러 유전자 변수들의 정보를 결합하여 소수 몇 개의 재조합된 새로운 유전자 변수를 생성하여 사용하는 PCA방법이 제안되었습니다. 새로운 유전자 변수는 원래 유전자 변수들의 선형결합형태로 정의됩니다. 마이크로어레이 분석에서는 이런 유전자들을 보통 super-gene이라고 부르는데, 수천, 수만 개의 유전자들로부터 의미 있는 소수(보통 10개 이하)의 super-gene을 만들어 내게 됩니다. 주성분 분석 이론은 원 자료의 고유벡터로부터 구해지며, 임의의 두 주성분에 대하여 공분산이 항상 0이므로 주성분들 간에는 상관성이 존재하지 않으며, 전체 원 자료의 변수들의 분산의 합은 주성분 분산의 합과 항상 일치하고, 주성분의 각 계수는 특정 유전자 변수가 새로운 주성분 유전자변수에 기여하는 정도를 나타냅니다. PCA와 MDA의 추가 설명자료를 첨부하니 참고하시길 바랍니다.
감사합니다^^