지식나눔

Sanger institute의 LogoMat-M에 대해 질문.

Sanger institute에 Sequence시각화 결과중에 LogoMat-M이란 것을 보게 되었습니다. 결과그림을 보면 아미노산 알파벳을 서로 다른 크기로 그리고, 확율 및 전체 기여도 등의 의미를 부여해 놓았던데, 해석하는 의미가 잘 와닿지 않더군요. 특히 특히 이부분... The height of the stack represents the relative entropy of the distribution of the emission probabilities within some state relative to the background distribution given for the whole profile. The relative size of a letter then expresses it's emission probability from a state's distribution. 결과를 왜 entropy개념으로 설명하고 있는지와 어떤 의미로 emmission distribution 이란 표현을쓰는지 이해가 잘 가지 않는데, 조언좀 부탁 드립니다. http://www.sanger.ac.uk/resources/software/logomat-m/ ftp://ftp.sanger.ac.uk/pub4/resources/software/logomat-m/logomat-m.pdf
  • pHMM
  • LogoMat
지식의 출발은 질문, 모든 지식의 완성은 답변! 
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
답변 1
  • 답변

    이제근님의 답변

    오래 전에 올리신 질문으로 보이나... 아직 미해결질문으로 남아있는 듯 하여 간단하게 답변하겠습니다. LogoMat-M이라는 것을 직접 사용해본 적은 없습니다만, 질문하신 부분에 대해 일반적인 내용으로 답변하겠습니다. 질문하신 부분에 대한 정확한 의미를 이해하시려면 먼저 hidden Markov model (HMM)의 개념을 이해하셔야 합니다. LogoMat-M이라는 툴이 HMM에 기반하여 만들어져있기 때문입니다. HMM은 대표적인 확률그래프 모델 중 하나입니다. HMM은 각 state가 가지고 있는 probability, state들 간의 이동 확률을 표현하는 transition probability로 기본적으로 구성되어 있고, 이 때 각 state에서 발생되는 emission probability값을 구할 수 있습니다. 즉, 아주 개념적으로만 설명하면 HMM이라는 확률 그래프 모델을 구성한 후, 특정 조건 하에서 emission probability값을 추론하여 그 확률 값에 따라 각 letter(알파벳)의 크기가 결정되는 것입니다. 그리고, entropy라는 개념은 일반적인 물리화학에서 사용되는 개념이 아닌 정보이론에서의 entropy 개념으로 보시는 것이 더 타당합니다. (물론 서로 의미적으로 연결되는 부분은 있습니다.) 여기서는 relative entropy라는 표현을 사용하고 있는데, 일반적으로 특정 분포(distribution)가 다른 분포와 얼마나 다른가를 측정하는 데에 사용하는 것입니다. (일반적으로는 확률분포, probability distribution입니다.) 결국 emission probability 값과 background 분포의 차이에 의해 최종적으로 크기가 결정되는 것입니다.
    오래 전에 올리신 질문으로 보이나... 아직 미해결질문으로 남아있는 듯 하여 간단하게 답변하겠습니다. LogoMat-M이라는 것을 직접 사용해본 적은 없습니다만, 질문하신 부분에 대해 일반적인 내용으로 답변하겠습니다. 질문하신 부분에 대한 정확한 의미를 이해하시려면 먼저 hidden Markov model (HMM)의 개념을 이해하셔야 합니다. LogoMat-M이라는 툴이 HMM에 기반하여 만들어져있기 때문입니다. HMM은 대표적인 확률그래프 모델 중 하나입니다. HMM은 각 state가 가지고 있는 probability, state들 간의 이동 확률을 표현하는 transition probability로 기본적으로 구성되어 있고, 이 때 각 state에서 발생되는 emission probability값을 구할 수 있습니다. 즉, 아주 개념적으로만 설명하면 HMM이라는 확률 그래프 모델을 구성한 후, 특정 조건 하에서 emission probability값을 추론하여 그 확률 값에 따라 각 letter(알파벳)의 크기가 결정되는 것입니다. 그리고, entropy라는 개념은 일반적인 물리화학에서 사용되는 개념이 아닌 정보이론에서의 entropy 개념으로 보시는 것이 더 타당합니다. (물론 서로 의미적으로 연결되는 부분은 있습니다.) 여기서는 relative entropy라는 표현을 사용하고 있는데, 일반적으로 특정 분포(distribution)가 다른 분포와 얼마나 다른가를 측정하는 데에 사용하는 것입니다. (일반적으로는 확률분포, probability distribution입니다.) 결국 emission probability 값과 background 분포의 차이에 의해 최종적으로 크기가 결정되는 것입니다.
    구자을(kucu7) 2010-06-29

    답변 감사합니다