커뮤니티

서열정보 및 구조정보를 이용한 단백질 호몰로지 예측

단백질의 진화 연구에 있어서, 공통 조상을 가진 단백질간의 관계를 호몰로지 (homology)라고 한다. 따라서 homologous 한 두 단백질은 그렇지 않은 단백질에 비해서 그 역할이나 3차원 구조가 비슷할 확률이 더 높다 [1]. 생명과학 연구자에게 단백질간의 호몰로지는 우리가 새로운 단백질을 발견했을 때 실험적으로 테스트 할 수 있는 가설(testable hypothesis)을 제공해 주는 매우 유용한 툴이며 이 때문에 단순 서열 비교로 호몰로지를 예측해 주는 툴인 NCBI의 BLAST  는 분자 생물학에 있어서 필수적인 도구가 되었다[2]. 단, 이 때 주의 할 것은 호몰로지는 높거나 혹은 낮은 정확도로 예측될 수 있을 뿐 거의 모든 경우에 있어서 두 단백질이 정말 같은 공통 조상에서 유래되었는가는 실험적으로 증명이 거의 불가능하다 [1]. 가끔 논문에서 보이는 “90%의 서열 호몰로지를 가진다” 라는 표현은 엄밀히 말해 잘못된 표현이다. 호몰로지는 그 정의에서 보듯이 호몰로지를 갖거나 갖지 않는 것이고 위의 표현은 마치 어떤 남녀가 90% 부부이다 라고 말하는 것과 같다.
전통적으로 단백질 호몰로지 예측은 서열 정보를 주로 이용해 왔고 대표적인 도구로서는 NCBI BLAST가 있다. 하지만 NCBI의 BLAST는 그 정보의 이용이 그 테스트의 대상이 되는 두 단백질에 한정이 되어 있어서 (sequence-sequence search), 두개의 homologous 유무를 확인하고자 하는 두 단백질 사이의 진화적인 거리가 먼 경우 예측이 거의 불가능하다고 할 수 있다. 이러한 문제를 극복하는데 처음 시도된 방법으로 sequence-profile search method인 NCBI PSI-BLAST가 있다 [3]. 이 방법은 주어진 두개의 서열만을 비교하는 것이 아니라 우리가 호몰로그를 찾고 싶어하는 단백질과 같은 패밀리에 속한 단백질을 모두 다 이용해서 profile (각각의 아미노산에 대해서 얼마나 conserve 되어 있는지를 수치적으로 나타낸 것)을 만든 후 이 프로파일에서 conserve 되어 있는 아미노산을 갖는 단백질을 중심으로 비교하는 방법이다. 여기서 한걸음 더 나아간 방법들이 COMPASS  등의 profile-profile search methods들이다[4]. 이들은 호몰로지 여부를 알고자 하는 두 단백질 패밀리와 패밀리를 비교해서 호몰로지를 예측하므로, 이전의 PSI-BLAST와 같은 sequence-profile search method 보다 더 나은 예측 결과를 보여준다.
위에서 언급된 방법들 외 최근 동향은 호몰로지를 찾을 때 단백질 서열 정보 외에 2차원 구조와 3차원 구조를 이용하는 것이다. 2차원 구조를 이용하는 방법으로 대표적인 것으로 profile-profile search method  에 2차 구조 정보를 더하는 방법으로 HHsearch  가 있다.



최근 들어 3차원 구조를 예측하는 CASP에서 매우 좋은 결과물을 거두어 관련 연구자들의 주목을 받았다[5]. 저자가 속한 연구실에서도 비슷한 아이디어를 이용 COMPASS 방법에 2차구조와 다른 기타 정보를 더한 방법을 발표하였다.



 



 어떻게 해서 2차원 구조가 호몰로지를 예측하는데 도움을 주는 것일까? 일반적으로 이 질문에 대한 답은 단백질의 1차원 구조 즉 서열이 두 단백질이 공통 조상에서 갈라져 나온 후 시간(divergence time)이 지남에 따라서 상대적으로 빨리 바뀌고 2차원 구조나 혹은 3차원 구조는 상대적으로 천천히 바뀌다는 점에서 찾고 있다. 2차원 구조보다도 3차 구조가  더 천천히 바뀌므로  만일 3차원 구조가 알려져 있다면, 3차원 구조를 이용하는 것이 homology를 찾는데 더욱 좋다고 할 수 있을 것이다 (그림1). 비슷한 이유로 최근 많은 수의 구조생물학 연구들은 DALI server 의 structure-structure search 정보를 이용하여 비슷한 구조의 단백질 정보를 얻어 새로운 단백질 구조 연구에 이용하고 있다. 하지만 구조 정보는 그 나름의 문제를 가지고 있는데 실제로 전혀 공통 조상을 가질 수 없는 단백질이 비슷한 구조를 가지는 경우 (analog라고 지칭) 가 있다. 3차원 구조를 이용할 때에는 이러한 analog들을 조심해서 배제하여야 한다 [6].


 




이러한 논리로 개발된 방법이 저자가 참여한 HorAServer  방법이다. 우리는 앞서 이야기한 profile-profile search방식과 3차 구조를 비교하는 structure-structure search방식을 동시에 적용한 homology feature들을 생성해 낸 후 최근 많이 쓰이고 있는 machine learning technique인 SVM (Support Vector Machine)방법을 적용해 두 가지의 상이한 정보를 통합하여 호몰로지를 예측하였다 (그림 2)[7]. 이러한 machine learning technique 은 어떤 정보를 가지고 training 하거나 test 하는지가 현실적으로 매우 중요하므로, 우리는 구조 정보와 homology 정보를 잘 저장하고 있는 SCOP database  에 기초해서 우리의 training /test set을 설정하였다. 이 방법을 이용해서 우리는 서열 정보와 구조 정보를 둘다 알고 있고 또 잘 이용하는 경우 호몰로지 예측의 정확도가 90% (SCOP database에 바탕으로 점수를 매긴 경우)에 이름을 보았다.
그렇다면 서열 정보와 구조 정보를 모두 다 이용하는 경우 이보다 더 나은 방법은 없을까? 아마도 다음의 관문은 SVM과 같은 machine learning technique의 한계를 극복하는 것이 아닐까 한다. Machine learning technique 은 다량의 정보를 통합 예측을 하는 것에는 매우 큰 도움이 되지만 새로운 정보, 즉 training 데이터에서 설명되지 않은 방식을 찾아내는 것에는 도움이 되지 않으므로 우리가 사용한 SCOP database의 한계를 뛰어넘을 수 없다는 것에 근본적인 한계가 있다. 따라서 앞으로 나아갈 방식은 기존 데이터를 사용하지 않은 방식으로 서열 정보와 구조 정보를 통합하는 방법이어야 하며 이를 통해 현존하는 호몰로지 데이터베이스들과 상호 보완함으로 더 나은 데이터베이스를 만들 수 있을 것이다.
마지막으로, 실제 연구자로써 호몰로지를 예측하고 싶을 때에는 위에서 언급한 BLAST, PSI-BLAST, COMPASS, HHsearch, HorAServer등의 다양한 방법을 이용해서 통합적으로 접근하여야 잘못된 예측을 줄일 수 있다. 즉 어떤 단백질들이 특정 방법으로만 호몰로지가 예측 가능하다면, 그 방법이 갖는 한계로 인한 오류일 가능성이 높은 것이다. 바꿔 말하면 다양한 방법으로 예측되었다면 더 많이 신뢰할 수 있다.



참고문헌
[1] Koonin EV. Orthologs, paralogs, and evolutionary genomics. Annu Rev Genet. 2005;39:309-38.
[2] Altschul SF, et al. Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10.
[3] Altschul SF, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997 Sep 1;25(17):3389-402.
[4] Sadreyev RI, et al. COMPASS server for homology detection: improved statistical accuracy, speed and functionality. Nucleic Acids Res. 2009 Jul 1;37(Web Server issue):W90-4.
[5] S?ding J. Protein homology detection by HMM-HMM comparison. Bioinformatics. 2005 Apr 1;21(7):951-60
[6] Cheng H, Kim BH, & Grishin NV. MALISAM: a database of structurally analogous motifs in proteins. Nucleic Acids Res. 2008 Jan;36(Database issue):D211-7. Epub 2007 Sep 12.
[7] Kim BH, Cheng H, & Grishin NV. HorA web server to infer homology between proteins using sequence and structural similarity.Nucleic Acids Res. 2009 Jul 1;37(Web Server issue):W532-8



 



------------------------------------------------------------------------------



1. http://blast.ncbi.nlm.nih.gov/Blast.cgi


2. http://prodata.swmed.edu/compass/compass.php


3. HHsearch는  엄밀히 말하면 profile-profile alignment method 가 아니고 profile과 비슷하게 단백질 패밀리의 정보를 확률적으로 나타낸 HMM (Hidden Markov Model) ?HMM alignment method 이다.


4. http://toolkit.tuebingen.mpg.de/hhpred


5. 3차 구조가 2차 구조보다 더 천천히 바뀐다는 것은 좀 더 자세히 말하면 단백질 구조 전반의 모습 (structural fold)은 유지하는 경우에도 2차 구조인 alpha helix beta strand가 바뀌는 경우가 있음을 의미한다.


6. http://ekhidna.biocenter.helsinki.fi/dali_server/


7. http://prodata.swmed.edu/horaserver/


8. SCOP database외에도 DALI database, CATH database등이 많이 쓰이고 있으나 저자의 견해로는 SCOP 이 다른 데이베이스들보다 자료의 질적인 면에서 더 우위에 있다고 생각한다. SCOP은 더 많은 수작업을 통해 자료를 정제하므로 질적인 우위를 얻었지만 그 반대급부로 자료의 양적인 면은 다른 데이터베이스들보다 뒤진다.

  • 좋아요
등록된 댓글이 없습니다.