지식나눔

통계처리 t-test 와 anova

실험 후 통계처리에 대해서 질문드립니다.  제가 통계를 제대로 배우질 못해서 조금은 무식한 질문이 될수도 있을것 같습니다.

보통 통계처리를 하면 두 그룹간의 비교를 할때는 t test를

그 이상의 그룹들을 비교 할때는 anova 로 유의성 겸사를 하는 것으로 알고 있습니다.  찾아보면 이럴 땐 T test 이럴땐 anova를,  이렇게만 설명하지 개념적 이유나 원리에 대해서는 설명이 별로 없네요..

제가 수학적 지식이 좀 부족해서 그러는데, 여기서 이해가 안가는 것은 왜  이를 다르게 적용하느냐는 것입니다. 실제로 유의성 결과 해보면 값이 조금 다르더군요.. 

예를 들어 A: control group(플라시보) , B: 약물처리 그룹 1,   C: 약물처리 그룹 2  각각 10개체씩을 실험하였다고 가정하면

A와 B 그룹만 실험했으면  T test  ,   A,B,C를 실험 했으면 anova 라고 하던데요

control A와 B,  그리고 control A와 C를 비교해서 유의성 검사를 할때 t test하면 안되고 anova를 해야 왜 하는지 잘 이해가 안갑니다.    원리와 수학적 차이에 대해서 설명 부탁드립니다.

감사합니다..

  • t test
지식의 출발은 질문, 모든 지식의 완성은 답변! 
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
답변 3
  • 답변

    남주선님의 답변

    첨부파일

    질문의 요지가... 3군간의 차이를 비교할때 왜 꼭 ANOVA를 써야하나요?



    A와 B, A와 C, B와 C 이렇게 세번 T-test를 하면 안되나요? 라고 보여집니다....



     



    먼저 T-test나 ANOVA나 모두 평균을 비교하는 것입니다. 



    두 검정법 모두 각 군의 평균차이가 분산에 비해 얼마나 크냐.. 라는 것에 기초를 둔 분석법입니다.



     



    두군의 차이에 근간하여 만들어진 통계방법인 T-test는 세군이상이 되면 사용이 불가능하겠죠.



    하지만 각 군이 전체평균과의 차이가 얼마나 나나?에 기초하여 만들어진 ANOVA는 군이 몇개라도 상관이 없겠죠.



     



    T-test의 가설은 두 군의 차이가 있어? 없어?



    ANOVA의 가설은 모든군의 평균이 같아? 다 같은건 아니야?  



     



    동 가설에 수식에 기초하지않고 원리에 근간한 분석법에 대한 표기는 아래와 같아요..



    T-test = (A군의 평균 - B군의 평규)^2/(두 평균차이의 표준편차)



    ANOVA = sum(각 군의 평균-전체평균)^2 / (평균치들의 차이의 표준편차)



     



    즉, 두군밖에 없다면, t-test와 anova는 결과적으로 유사한 결과를 보입니다.



    물론 통계적으로 깊게 들어가면 등분산이냐 아니냐에 따라 좀 다르겠지만.... ^^



     



    그렇다면.... ANOVA에서의 다 같은건 아니야.. 라는 결과가 나오면...



    다중검정을 통해서 어떤 군과 어떤군의 차이가 나는지를 확인합니다.



     



    그럼... 또 이런 궁금증이 생길껍니다. 두군씩 T-test를 하면 되는거아니야??



    그렇게 되면 오류율에 문제가 생기는데....



    보통 통계 결과를 서술할 때 "유의수준 0.05에서 검정했을때.. " 라는 말이 나올겁니다.



    이건 제1종의 오류로, 두 군의 차이가 없을 때 차이가 있다..라는 잘못된 결과를 도출할 오류입니다. 이 오류는 검정횟수가 늘어날 수록 그 오류가 증가됩니다.



     



    질문에서 적은 것처럼 A와 B, A와 C, B와 C를 각각 비교한다면 비교회수가 3번이 되고,



    각각 검정은 0.05유의수준에서 한다면 전체적인 이 분석의 오류를 (1-0.95)^3 = 0.1426 됩니다.

    => 오타가 있네요.. ^^ 1-0.95^3 = 0.1426입니다.. ^^ 지적해주신분... 감사합니다.. ^^

    오류가 너무 커지죠.. 그래서 ANOVA를 쓰는 겁니다. ^^ 동 분석에서 모든군이 다 같은건 아니야.. 라고 된다면..  그 뒤에는 다중검정이라는 다른 분석을 통해 유의수준 0.05를 유지하면서 어떤 군과 어떤 군이 차이가 나는지..확인 하는 방법을 사용하게 됩니다.


     

    질문의 요지가... 3군간의 차이를 비교할때 왜 꼭 ANOVA를 써야하나요?



    A와 B, A와 C, B와 C 이렇게 세번 T-test를 하면 안되나요? 라고 보여집니다....



     



    먼저 T-test나 ANOVA나 모두 평균을 비교하는 것입니다. 



    두 검정법 모두 각 군의 평균차이가 분산에 비해 얼마나 크냐.. 라는 것에 기초를 둔 분석법입니다.



     



    두군의 차이에 근간하여 만들어진 통계방법인 T-test는 세군이상이 되면 사용이 불가능하겠죠.



    하지만 각 군이 전체평균과의 차이가 얼마나 나나?에 기초하여 만들어진 ANOVA는 군이 몇개라도 상관이 없겠죠.



     



    T-test의 가설은 두 군의 차이가 있어? 없어?



    ANOVA의 가설은 모든군의 평균이 같아? 다 같은건 아니야?  



     



    동 가설에 수식에 기초하지않고 원리에 근간한 분석법에 대한 표기는 아래와 같아요..



    T-test = (A군의 평균 - B군의 평규)^2/(두 평균차이의 표준편차)



    ANOVA = sum(각 군의 평균-전체평균)^2 / (평균치들의 차이의 표준편차)



     



    즉, 두군밖에 없다면, t-test와 anova는 결과적으로 유사한 결과를 보입니다.



    물론 통계적으로 깊게 들어가면 등분산이냐 아니냐에 따라 좀 다르겠지만.... ^^



     



    그렇다면.... ANOVA에서의 다 같은건 아니야.. 라는 결과가 나오면...



    다중검정을 통해서 어떤 군과 어떤군의 차이가 나는지를 확인합니다.



     



    그럼... 또 이런 궁금증이 생길껍니다. 두군씩 T-test를 하면 되는거아니야??



    그렇게 되면 오류율에 문제가 생기는데....



    보통 통계 결과를 서술할 때 "유의수준 0.05에서 검정했을때.. " 라는 말이 나올겁니다.



    이건 제1종의 오류로, 두 군의 차이가 없을 때 차이가 있다..라는 잘못된 결과를 도출할 오류입니다. 이 오류는 검정횟수가 늘어날 수록 그 오류가 증가됩니다.



     



    질문에서 적은 것처럼 A와 B, A와 C, B와 C를 각각 비교한다면 비교회수가 3번이 되고,



    각각 검정은 0.05유의수준에서 한다면 전체적인 이 분석의 오류를 (1-0.95)^3 = 0.1426 됩니다.

    => 오타가 있네요.. ^^ 1-0.95^3 = 0.1426입니다.. ^^ 지적해주신분... 감사합니다.. ^^

    오류가 너무 커지죠.. 그래서 ANOVA를 쓰는 겁니다. ^^ 동 분석에서 모든군이 다 같은건 아니야.. 라고 된다면..  그 뒤에는 다중검정이라는 다른 분석을 통해 유의수준 0.05를 유지하면서 어떤 군과 어떤 군이 차이가 나는지..확인 하는 방법을 사용하게 됩니다.


     

    There's a typo. (1-0.95)^3=0.000125 not 0.1426. If you do multiple comparisons testing Bonferroni correction is useful. For example, if you do 3 comparisons then your type I error rejection limit is approximately 0.05/3=0.0167.

  • 답변

    신동휘님의 답변

    t-test is used to assess difference in two groups, whether independent or not whereas ANOVA is used to compare differences in two or more group settings. In your example, there are 3 groups; A, B, and C each with 10 samples and total sample size of 30. If you use two separate t-tests namely, A vs. B and A vs. C you will lose power as compared to using ANOVA because you are not utilizing all the data you have. It is generally a good rule of thumb that you want to use as much data as possible when conducting statistical analysis. Also you can adjust for multiple comparisons in ANOVA but not in t-test.

     

    Finally, you will not be able to answer more advanced scientific quesiton as to where the difference exists among groups. For this, more advanced statistical analysis is recommended.

     

    If you need further assistance please email me at donghwishin@gmail.com

    Hope this helps. Thanks.

    Donghwi

    t-test is used to assess difference in two groups, whether independent or not whereas ANOVA is used to compare differences in two or more group settings. In your example, there are 3 groups; A, B, and C each with 10 samples and total sample size of 30. If you use two separate t-tests namely, A vs. B and A vs. C you will lose power as compared to using ANOVA because you are not utilizing all the data you have. It is generally a good rule of thumb that you want to use as much data as possible when conducting statistical analysis. Also you can adjust for multiple comparisons in ANOVA but not in t-test.

     

    Finally, you will not be able to answer more advanced scientific quesiton as to where the difference exists among groups. For this, more advanced statistical analysis is recommended.

     

    If you need further assistance please email me at donghwishin@gmail.com

    Hope this helps. Thanks.

    Donghwi

    등록된 댓글이 없습니다.
  • 답변

    최성철님의 답변

     


     일반적으로 두 집단을 비교할 때는 대표값이 어디에 위치하는 지를 비교하지만,


    여러 집단에서는 Data의 흩어져 있는 정도(분산)을 가지고 판단하게 됩니다.


    Data의 흩어짐의 정도가 각기 다를 경우, 유사한 특성을 지난 집단들은 하나의 집단으로


    해석될 수 있는데, 이러한 분석을 위해 F-test가 필요합니다.


     


    첨부한 그림이 이해에 도움이 될 듯 한데, 오른쪽 그림에서 3~5번째 집단은 한 집단으로


    해석될 가능성이 있어서, 분석상으로는 세 그룹으로 나뉠 가능성이 있지만,


    첫 번째와 세 번째 집단은 데이터의 분포상 완전히 다른 집단의 특성을 지니고 있습니다.


    이 때는 Student's t-test 또는 Tukey HSD를 이용해, 각 그룹들을 비교하여 세부적인 비교를


    할 수 있습니다.


     

     


     일반적으로 두 집단을 비교할 때는 대표값이 어디에 위치하는 지를 비교하지만,


    여러 집단에서는 Data의 흩어져 있는 정도(분산)을 가지고 판단하게 됩니다.


    Data의 흩어짐의 정도가 각기 다를 경우, 유사한 특성을 지난 집단들은 하나의 집단으로


    해석될 수 있는데, 이러한 분석을 위해 F-test가 필요합니다.


     


    첨부한 그림이 이해에 도움이 될 듯 한데, 오른쪽 그림에서 3~5번째 집단은 한 집단으로


    해석될 가능성이 있어서, 분석상으로는 세 그룹으로 나뉠 가능성이 있지만,


    첫 번째와 세 번째 집단은 데이터의 분포상 완전히 다른 집단의 특성을 지니고 있습니다.


    이 때는 Student's t-test 또는 Tukey HSD를 이용해, 각 그룹들을 비교하여 세부적인 비교를


    할 수 있습니다.


     

    등록된 댓글이 없습니다.