통계와 지혜
- 2790
- 1
요즘 빅데이터라는 단어가 자주 이야기됩니다. 컴퓨터가 좋아지고 인터넷으로 정보들이 쉽게 모이니, 이런 데이터들을 활용해보자는 것입니다. 대표적인 것이 건강보험 진료기록 같은 것입니다. 전국민을 대상으로 특정 질병이 나이-성별-체질-직업별로 어떤 경향을 보이는 지는, 제약회사와 보험회사들의 이익에 직결됩니다. 항공기 회사들은 일년 중 날자별로 여행객들이 어떻게 모이는지를 알아서 비행기표 가격을 정하고 비수기를 버티는 기획상품을 디자인합니다. 그런데 방대한 데이터 전부를 처리할 수 있는 경우는 극히 제한적입니다. 모든 데이터를 모으기가 법적인 제한으로 불가하거나, 가능해도 데이터가 너무 방대해서 경제성이 없거나 아니면 아예 물리적으로 불가합니다. 그래서 정보를 다루는 통계학에서 아주 중요한 부분이 샘플링이죠. 대통령 선거에서 누구를 찍을 지, 전체 유권자에게 물어볼 수 없기 때문에, 천명을 무작위로 전화했다는 등의 뉴스를 기억해보면 이해가 될 것입니다. 샘플링이 크면 클수록 더 진실에 가깝지만, 고수의 비밀은 가장 적은 숫자의 샘플링으로 가장 진실에 가까운 통계조사를 해내는 것입니다. 물론 통계에는 이 부분만 있는 것은 아니고, 설문조사를 한다면 질문을 중립적으로 기술해서 답변의 편향성을 막거나 하는 여러가지 기술이나 꼼수가 있겠습니다. 서론이 장황해졌습니다만, 저도 잘 모르는 통계학 강의를 하려는 것은 아니고 정보의 바다 속에 빠져서 허우적대기보다 어떻게 헤엄쳐서 뭍으로 나올 수 있는지를 생각해보자는 이야기를 하려고 합니다.
모집단에 대한 이해가 모자랄 경우, 샘플링마저 숫자가 적다면 엉터리 통계조사가 될 확률은 아주 높아집니다. 예를 들면 외국에서 생활하는 사람들 중, 현지생활이나 법을 충분히 모르고 누군가가 한 번 해서 해결된 일은 그 길이 답이라고 굳게 믿는 경우를 많이 봤습니다. 담당자가 실수를 했거나, 자신은 그 사람과 동일한 경우가 아닌데도 말입니다. 굉장히 오래된 이야기입니다만, 유학초기시절에 어학을 같이하던 한국인 유학생들이 스무여명 동일 기숙사 타운에 살고 있었습니다. 그런데 야심한 밤중에 유학생들이 공중전화 박스에서 삼삼오오 줄을 선 것을 자주 보았습니다. 여기 시간 밤이면 한국은 이른 아침이라 통화가 불편한 시간인데도 그 시간에 전화를 하더군요. 이유를 물어봤더니 심야에는 50%까지 통화료 할인이 된다는 것입니다. 정말 심야 할인률이 전화박스에 붙어있었습니다. 그들은 유학선배들로부터, 늦은 시간에 전화해야 싸다는 노하우를 이미 전수받았다고 했습니다. 당시에는 저도 동서남북을 간신히 구별할 때 였습니다만, 뭔가 이상했습니다. 시차가 있는데 할인률이 국내전화와 동일하다는 것이 상식적이지 않았으니까요. 그래서 기숙사 로비에 비치되어있던 전화번호부를 뒤져봤습니다. 전화박스에 붙어있던 동일한 할인표가 거기에도 있었습니다. 하지만 그 책 속의 표에는 아주 작은 별표가 있더군요. 별표에 해당하는 문장을 더듬거리며 읽어봤습니다. 글자크기는 작았지만, 내용은 분명했습니다. “위 할인표는 국제전화에는 해당되지 않음.” 다음날 제가 유학동기들에게 약간의 면박을 더해, 제대로 좀 알자고 이야기해주었습니다. 늦은 밤 공중전화 박스 앞에서 만들어졌던 줄은 며칠 사이에 사라졌습니다. 낮에 전화해보고 밤에 전화해보면 전화카드에서 돈이 빠져나가는 속도가 동일한데도, 현상에 주의하지 않고 할인률표만 믿었던 것입니다. 겨우 하나의 징후나 단편적 정보를 마치 전부인 양 판단하는 경우는 너무 많습니다. 더우기 외국생활을 처음 시작할 때는 언어가 잘 안될 때이니, 혼자서 소설 써가며 사실을 과장하거나 왜곡할 경우가 많습니다.
눈 앞의 현상이 상식과 다를 때, 파편적 사실이 전체와 다를 때는 모집단에 비해 샘플링 숫자가 과소한 경우와 비슷합니다. 때로는 현상과 샘플링이 다 일치하지만, 시간과 함께 진실이 조금씩 변해가고 있는데도 본인에게 유리한 사실만 받아들이는 경우도 있습니다. 그리고 참 재미있는 것은, 정보와 통계는 제3자의 위치에 있을 때에만 객관적 의미를 가집니다. 예를 들어 어떤 암환자들의 70%가 사망한다고 합시다. 그러나 본인이 죽게되면 생존률 0%, 살면 생존률 100%가 되는 것입니다. 생존률 70%는 나와 관계 없는 다른 사람들 이야기일 뿐입니다. 이렇게 동일 사건에 대한 주관적 ‘팔자’와 객관적 ‘팩트’는 전혀 다른 의미를 가집니다. 그래서 점쟁이나 무당이 파고들 틈이 많은 것이죠. 지극히 이성적이고도 객관적인 사람도 자기 일 앞에는 너무 감정적이고 주관적으로 변합니다. 그러니까 실력 있는 변호사도 자기가 피고가 되면 스스로를 변호하기보다 다른 변호사를 고용하는 것이 답입니다.
우리는 하루하루 쏟아지는 무수한 데이터 속에서 많은 것들을 선택하며 살고 있습니다. 너무 쉽게 남의 말을 믿었다가 낭패당하는 경우도 있고, 혼자서 고집부리다가 어디에 하소연 할 데도 없는 처량한 신세가 되기도 합니다. 운이 좋았던 것을 마치 자기의 실력이나 염력에 의한 결과라고 우쭐해할 경우도 다반사입니다. 정말 Up-Down이 너무 많은 세상입니다. 그렇게 잘 오르던 주식이 휴지조각이 되기도 하고, 몇십년간 어렵게 모은 돈으로 산 집값이 불과 몇년 사이에 쑥 빠져버리는 일을 겪기도 합니다. 이런 처지에 우리는 우리가 하는 과학을 어떻게 삶에 적용해야 할까요? 객관적으로 분석하여 결정하지만, 그 후에 찾아오는 결과는 주관적이고도 운명적으로 받아들일 수 밖에 없을 것 같습니다. 여전히 우리 삶에 있어서 신앙을 미신이라고 부정할 수 없는 부분입니다. 곰곰히 생각해보면 이렇게 복잡한 세상에서 우리가 대과 없이 하루하루 살아가는 것 자체가 기적인 것 같습니다. 결론적으로, 옛사람들이 말했던 지혜라는 단어를 현대로 가져와 다시 번역한다면, 데이터 분석력이라고 말하고 싶습니다. 좀 더 쉽게 이야기하면, “하나를 보면 열을 알 수 있다”는 샘플링의 기술과, “제비 한마리가 왔다고 여름은 아니다”라는 신중론 사이에서 결정하고 선택해야 한다는 것입니다.정보가 많은 세상이니 너무 귀가 얇지 않고 지식이 깊은 세상이니 너무 고집 피우지 않는, (배반적인 성품인) 경직성과 유연성이 동시에 요구되는 시대입니다. 실제로 최고의 금속재료는 표면은 경해서 내마모성이 좋지만, 내부는 연해서 충격시 에너지를 많이 흡수하여 안부러지는 금속입니다. 쇠붙이와는 반대로 사람은 바깥이 부드럽고 속은 강한 외유내강형이 좋다고 합니다. 안이 연하면 밖이 경하든지, 안이 강하면 표면이 소프트해야 한다는 이야기입니다. 표면과 내부가 다 무르거나 다 강하면, 홍시처럼 금방 터지거나 유리처럼 쉽게 깨집니다. 이 가을에 평생의 반려자를 선택해야 하는 과학기술계 처녀총각들은, 탁월하고도 겸손한 데이터 분석력으로 평생행복을 보장받는 대박나는 가을 되시길 바랍니다.
좋은 내용 감사합니다.