지식나눔

프로테오믹스 통계 방법에 대해 질문드립니다

안녕하세요

지금 제가 보고 있는 데이터는 셀로부터 익스트랙션 한 프로테옴에 나노파티클을 트릿 했을때 나노파티클과 상호작용하는 프로틴들의 프로파일을 분석한 것입니다.
발견한 내용 중 하나는, 전체 프로테옴중에 특정 분자량 레인지에 들어오는 단백질들이 주로 나노파티클과 상호작용을 한다는 것인데요, 이때 모집단인 프로테옴의 평균값과 나노파티클과 상호작용한 프로틴들의 평균값이 통계적으로 유의미하게 다른지 알아보고자 합니다.

즉, 파퓰레이션에서 얻어낸 특정 샘플이 파퓰레이션 일부에 편중되어있다는 것을 통계적으로 표현하고자 하는데, 어떠한 방법이 이용되는것이 좋을런지 여쭙고 싶습니다.

현재까지 저와 저의 어드바이저가 이야기 한 내용은 Kolmogorov-Smirnov test를 이용한 p value의 산출인데, 저는 과연 제 실험이 이 테스트의 전제조건들을 만족하는지에 대해서 의문이 있어서 이것이 과연 올바른 통계 방법인지 여쭙고 싶습니다.

지혜를 빌려주시면 감사하겠습니다.
  • 통계
  • 프로테오믹스
  • p value
지식의 출발은 질문, 모든 지식의 완성은 답변! 
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
답변 1
  • 답변

    전상춘님의 답변

    질문에서 "즉, 파퓰레이션에서 얻어낸 특정 샘플이 파퓰레이션 일부에 편중되어있다는 것을 통계적으로 표현하고자 하는데" 라는 이야기는 나노 파티클 처리를 하기전에 뽑은 샘플이 편의(bias) 되었는지 묻는 질문 같습니다.
    "모집단의 프로테움의 평군값과 나노 파티클과 상호작용한 프로틴들의 평군값의 차이"와는 다른 질문 입니다.

    첫번 째 질문은 샘플링에 관한 질문이고 두번 째 질문은 나노 파티클과 상호작용에 대한 검증입니다.

    두번 째 질문이 테스트 목적이라 한다면, Kolmogorov-Smirnov test를 이용해서 우선 normality assumption을 확인하는 것이 우선입니다. 다만 샘플의 개수가 매우 클 경우에는 central limit theorem에 따라서 표본의 평균값이 정규분포를 따른다고 보기 때문에 간단히 normality assumption에 대한 검증 없이 t-test를 시행 할 수 있습니다. 샘플개수가 크다는 것이 어디부터 인가 하는 문제가 있습니다만. 정해진 cutoff라는 것은 없고 수학적으로는 infinit number 입니다. 경험상 분포자체가 정규분포 형태를 지니고 있다면 어느정도 크다면 (100이상... 이 숫자도 통계적 근거는 없습니다)  Kolmogrov-Smirnov test를 만족하지 않더라도 평균 비교를 해도 무리가 없을 것 같습니다.

    다만 관측치의 분포가 한쪽으로 쏠린다거나 exatrem outliers 에 영향을 많이 받을 경우 Mean이라는 통계량이 적당하지 않을 수 있기 때문에 log-transform 을 한 이후에 분포를 보시고 평균차를 테스트 하시거나 중앙값(median)을 비교하실 수 있습니다.








     
    질문에서 "즉, 파퓰레이션에서 얻어낸 특정 샘플이 파퓰레이션 일부에 편중되어있다는 것을 통계적으로 표현하고자 하는데" 라는 이야기는 나노 파티클 처리를 하기전에 뽑은 샘플이 편의(bias) 되었는지 묻는 질문 같습니다.
    "모집단의 프로테움의 평군값과 나노 파티클과 상호작용한 프로틴들의 평군값의 차이"와는 다른 질문 입니다.

    첫번 째 질문은 샘플링에 관한 질문이고 두번 째 질문은 나노 파티클과 상호작용에 대한 검증입니다.

    두번 째 질문이 테스트 목적이라 한다면, Kolmogorov-Smirnov test를 이용해서 우선 normality assumption을 확인하는 것이 우선입니다. 다만 샘플의 개수가 매우 클 경우에는 central limit theorem에 따라서 표본의 평균값이 정규분포를 따른다고 보기 때문에 간단히 normality assumption에 대한 검증 없이 t-test를 시행 할 수 있습니다. 샘플개수가 크다는 것이 어디부터 인가 하는 문제가 있습니다만. 정해진 cutoff라는 것은 없고 수학적으로는 infinit number 입니다. 경험상 분포자체가 정규분포 형태를 지니고 있다면 어느정도 크다면 (100이상... 이 숫자도 통계적 근거는 없습니다)  Kolmogrov-Smirnov test를 만족하지 않더라도 평균 비교를 해도 무리가 없을 것 같습니다.

    다만 관측치의 분포가 한쪽으로 쏠린다거나 exatrem outliers 에 영향을 많이 받을 경우 Mean이라는 통계량이 적당하지 않을 수 있기 때문에 log-transform 을 한 이후에 분포를 보시고 평균차를 테스트 하시거나 중앙값(median)을 비교하실 수 있습니다.








     

    감사합니다. 이쪽으로는 아는게 별로 없어서 계속 인터넷도 찾아보고 책도 빌려보고 있는데 쉽지 않네요. 좋지 못한 질문에 좋은 답을 달아주셔서 감사합니다. 통계 방법에 대해서 다시 한 번 생각해봐야 할 것 같네요.