지식나눔

artificial neural network 이용한 regression vs 통계 regression

machine learning 기법의 하나인 artificial neural network을 이용한 (무한 iteration 통한 error 최소화) 다중회귀분석(multi regression) 통해 unknown값을 예측하는 것과 일반 통계에서 사용하는 다중회귀 분석하여 unknown 값을 예측하는 것에 대한 정확도 차이가 별로 크지 않은 것 같은데.... 프로그래밍을 해서 (@파이썬 등) 다중회귀 분석을 하면 다른 이점이 있을까여? 
  • ann
  • regression
지식의 출발은 질문, 모든 지식의 완성은 답변! 
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
답변 2
  • 답변

    백정열님의 답변

    머신러닝/딥러닝과 통계는 잘 아시다시피 매우 밀접한 관계가 있습니다.  머신러닝의 속을 들여다보면 통계학적으로 예측 데이터를 추출하는 방식과 거의 유사합니다. 그래서 특별히 다른 이점을 찾을 수 있을까 라는 의구심이 들기도 합니다.

    제 개인적인 견해로 말씀드리겠습니다. 다른 전문가 분들의 의견은 다를 수 있으니 의견이 다른 분들은 조언을 부탁드립니다 ^^ 

    1. 먼저 현재 AI를 활용한 예측은 대략 3단계의 절차를 거칩니다.
    1단계 : 수많은 RAW 데이터중 약 70%정도의 데이터를 기반으로 적용할 알고리즘을 활용하여 Training을 한 후
    2단계 : 나머지 30%의 데이터를 기반으로 Testing & Validation 과정을 거치게 됩니다. 
    3단계 : 새로 입력데이터를 입력하여 예측 데이터를 출력합니다.

    물론 상기 단계는 여러 머신러닝 기법 중 하나인 지도학습 방식을 사용했을때 입니다. 이외에 비지도학습 방식이나 강화학습 방식은 약간 다른 절차를 거치게 되는데 여기서는 이에 대한 세부 내용을 논하는 자리가 아니니 생략하겠습니다. ^^

    그러다 보니 실시간으로 실데이터를 넣어도 예측값을 도출할 수 있습니다.
    아울러 빅데이터 시스템과 연동되어 있다면 표본집단이 아닌 모집단 데이터로도 프로세스를 돌릴 수 있다는 장점이 있습니다.
    또다른 강점은 데이터 비주얼라이제이션 기능이 잘 되어 있어 매우 그럴듯한 통계 보고서도 만들 수 있습니다.
    이외에도 기존 통계적인 방법은 모든 데이터가 수치화 되어야 알고리즘 적용이 가능한데,
    머신러닝/딥러닝 기법에선 수치화되지 않은 데이터들을 다양한 엔진을 쉽게 융합하여 통계적 알고리즘에 적용이 가능합니다.

    반면에 단점도 있습니다. 상기 1단계, 2단계를 거치면서 컴퓨터는 데이터를 예측하기 위한 알고리즘을 구축하는데, 이 알고리즘은 블랙박스입니다. 즉, 사람이 알수 가 없다는 얘기입니다. 그러다 보니 어떻게 데이터를 학습시키느냐에 따라 결과가 달라질 수도 있습니다. 결국 많은 실험과 시행착오를 거치면서 validation 값이 잘 나올때까지 시도하여야 한다는 단점이 있습니다.

    두서없이 설명을 드렸는데 도움이 되셨기를 바랍니다.
    머신러닝/딥러닝과 통계는 잘 아시다시피 매우 밀접한 관계가 있습니다.  머신러닝의 속을 들여다보면 통계학적으로 예측 데이터를 추출하는 방식과 거의 유사합니다. 그래서 특별히 다른 이점을 찾을 수 있을까 라는 의구심이 들기도 합니다.

    제 개인적인 견해로 말씀드리겠습니다. 다른 전문가 분들의 의견은 다를 수 있으니 의견이 다른 분들은 조언을 부탁드립니다 ^^ 

    1. 먼저 현재 AI를 활용한 예측은 대략 3단계의 절차를 거칩니다.
    1단계 : 수많은 RAW 데이터중 약 70%정도의 데이터를 기반으로 적용할 알고리즘을 활용하여 Training을 한 후
    2단계 : 나머지 30%의 데이터를 기반으로 Testing & Validation 과정을 거치게 됩니다. 
    3단계 : 새로 입력데이터를 입력하여 예측 데이터를 출력합니다.

    물론 상기 단계는 여러 머신러닝 기법 중 하나인 지도학습 방식을 사용했을때 입니다. 이외에 비지도학습 방식이나 강화학습 방식은 약간 다른 절차를 거치게 되는데 여기서는 이에 대한 세부 내용을 논하는 자리가 아니니 생략하겠습니다. ^^

    그러다 보니 실시간으로 실데이터를 넣어도 예측값을 도출할 수 있습니다.
    아울러 빅데이터 시스템과 연동되어 있다면 표본집단이 아닌 모집단 데이터로도 프로세스를 돌릴 수 있다는 장점이 있습니다.
    또다른 강점은 데이터 비주얼라이제이션 기능이 잘 되어 있어 매우 그럴듯한 통계 보고서도 만들 수 있습니다.
    이외에도 기존 통계적인 방법은 모든 데이터가 수치화 되어야 알고리즘 적용이 가능한데,
    머신러닝/딥러닝 기법에선 수치화되지 않은 데이터들을 다양한 엔진을 쉽게 융합하여 통계적 알고리즘에 적용이 가능합니다.

    반면에 단점도 있습니다. 상기 1단계, 2단계를 거치면서 컴퓨터는 데이터를 예측하기 위한 알고리즘을 구축하는데, 이 알고리즘은 블랙박스입니다. 즉, 사람이 알수 가 없다는 얘기입니다. 그러다 보니 어떻게 데이터를 학습시키느냐에 따라 결과가 달라질 수도 있습니다. 결국 많은 실험과 시행착오를 거치면서 validation 값이 잘 나올때까지 시도하여야 한다는 단점이 있습니다.

    두서없이 설명을 드렸는데 도움이 되셨기를 바랍니다.

    몇몇 연구 페이퍼를 보면 neural network을 이용했을 때의 예측값 error가 더 작아진 것을 어필하고 있는데 큰 변화는 아니더라구요... iteration 횟수를 어떻게 설정하느냐에 따라 에러율은 줄어들 수 있는데 컴퓨터 부하가 커지고 (시간도 오래걸리고) ... 장점이라면 통계는 보통 정규분포를 가정한 분석이 많은데 AI는 어떤 전제조건이 없는것 같아보이더라구요... (이것이 장점이라면 장점일 듯... ) 답변 감사합니다 ^^

    통계데이터도 신뢰성을 높히려면 수많은 데이터로 iteration을 높혀야 하니 그점은 동일 한듯 하고요 learning 단계에서 정규분포 기준 데이터로 러닝을 할수도 있습니다 ^^

  • 답변

    김미숙님의 답변

       ANN Regression vs 통계 Regression

    결론부터 말씀드리면 문제의 복잡도(Complexity)에 따른 신뢰성의 차이가 생길 수 있습니다.
    회귀분석(Regression)은 모집단의 타당성을 높이기 위해 랜덤(random) 데이터를 사용합니다. 

    즉, 문제의 복잡도에 따라 신경망(ANN)의 Regression 또는 통계의 regression 차이가 없을수도 있고 차이가 날 수도 있습니다.
    신경망의 경우 입력(Input)노드의 수, 층(layer)의 수에 따라 복잡도의 차이를 보이며 복잡도가 높은 문제일수록 예측 결과에 대한 신뢰도가 높아진다고 판단할 수 있습니다.
       ANN Regression vs 통계 Regression

    결론부터 말씀드리면 문제의 복잡도(Complexity)에 따른 신뢰성의 차이가 생길 수 있습니다.
    회귀분석(Regression)은 모집단의 타당성을 높이기 위해 랜덤(random) 데이터를 사용합니다. 

    즉, 문제의 복잡도에 따라 신경망(ANN)의 Regression 또는 통계의 regression 차이가 없을수도 있고 차이가 날 수도 있습니다.
    신경망의 경우 입력(Input)노드의 수, 층(layer)의 수에 따라 복잡도의 차이를 보이며 복잡도가 높은 문제일수록 예측 결과에 대한 신뢰도가 높아진다고 판단할 수 있습니다.
    등록된 댓글이 없습니다.