본문 바로가기

리뷰_철학.사회

[수유너머N이 추천하는 말과 글] 세 번째: 통계의 성취와 한계에 대하여

세상에는 훌륭한 말과 글이 아주 많습니다. 풍성하게 운영되는 여러 다른 웹진과 블로그의 글들에서부터, 아카데믹한 격식이 오히려 그 가치를 가리고 있는 학술논문에까지, 수없이 많은 좋은 글들이 있습니다. 글만이 아닙니다. 인터넷에서 부쩍 쉽게 찾아볼 수 있게 된 강연과 발표에서도 보석 같은 메시지를 얻을 수 있습니다. [수유너머N이 추천하는 말과 글]에서는 도처에 흩어져 있는 훌륭한 말과 글을 모아, 추천의 변과 함께 독자 여러분께 권하려고 합니다. 

-코너 소개-


수유너머N이 추천하는 말과 글 세 번째 

: 통계의 성취와 한계에 대하여




만세 / 수유너머N 회원





 오늘은 통계와 데이터 과학에 대한 말과 글을 소개하려 합니다. 유행처럼 번지고 있는 ‘빅데이터’라는 단어에서 볼 수 있듯이, 이미 우리 사회는 여러 형태의 자료를 모으고, 통계적으로 처리하고, 그것에 근거하여 결정을 내리는 일에 익숙합니다. 개인적으로도, 통계를 포함한 데이터 과학에 근거한 결정을 더 많은 영역으로 확대해야 한다고 믿고 있습니다. 하지만 자료의 통계적 추론은 사태를 파악하는데 모든 면에서 뛰어난 방법이 아닙니다. 그것은 장점과 단점을 동시에 가진 도구입니다. 오늘 말씀드릴 말과 글은, 통계와 데이터 과학의 성취와 한계를 살펴보는데 적절한 것들입니다. 


 먼저 데이터 과학의 활용과 성취를 잘 보여주는 강연을 하나 소개하겠습니다. TED TALKS에서 찾아볼 수 있는 앤 밀그램(Anne Milgram)의 강연입니다. 앤 밀그램은 미국 뉴저지 주의 검찰 총책임자(Attorney General) 시절 도입한 데이터 과학에 대해 이야기합니다. 밀그램에 따르면 그 전까지 사법 체계는, 여러 사람의 선의와 노력에도 불구하고, 비효율적인 면이 많았습니다. 재범률이 높아 범법자들은 감옥을 제 집처럼 드나들었습니다. 거꾸로 재범확률이 낮은 경범죄자 상당수가 감옥에 장기간 있는 일이 이와 동시에 벌어지고 있었습니다. 밀그램은 재판에서 어떤 사람이 향후 범죄를 저지를지 그렇지 않을지(특히 폭력 범죄) 좀 더 정확하게 판단할 수 있다면, 사법 체계의 효율성도 높이면서 주민들의 생활을 전보다 더 안전하게 만들 수 있다고 생각했습니다. 그래서 이제까지 축적되어 온 범죄 기록 전체를 분석하여 재범이나 폭력 범죄를 결정하는 9개 주요 요인을 추출한 후, 이를 토대로 어떤 사람의 향후 범죄 및 폭력 위험을 판단하는 시스템을 구축하였습니다. 즉 재판장에 선 사람의 여러 특성을 입력하면, 향후 그 사람이 범죄나 폭력을 행사하게 될 위험을 계산해주는 모델을 만든 것입니다. 모델의 분석결과는 판사들에게 제공되어 활용되었고, 뉴저지 주의 범죄율은 획기적으로 낮아졌습니다. 


위 창을 클릭하시면 동영상이 나옵니다. 플레이 후 우측 하단을 보시면 자막을 설정할 수 있는 메뉴가 있습니다. 

아쉽게도 한글은 없습니다만, 영어 자막을 활용하시면 훨씬 편하세 보실 수 있습니다.^^



 통계와 데이터의 힘은 이 외에도 여러 곳에서 확인할 수 있습니다. 이 강연에서도 계속 언급되고 있는 [머니볼]이 유명한 사례입니다. 영화로도 제작되어 큰 인기를 끌었는데요, 이는 미국 메이저리그의 [오클랜드 A]라는 구단에서 데이터 분석을 토대로 팀을 약팀에서 강팀으로 바꾼 이야기입니다. 그들이 성공할 수 있었던 비결은, 기존에 여러 스카우터나 감독들이 가지고 있었던 편견을 과감히 내려놓고, 출루율과 같은 객관적 데이터에만 의존하여, 여러 이유로 저평가된 선수들을(어깨 파열, 고령 등) 싼값에 영입하여 큰 효과를 본 것에 있었습니다. 2002년 오클랜드 A는 총 연봉을 뉴욕 양키즈의 1/3 정도만 쓰고서도, 양키즈와 동일한 승률을 달성합니다. 자료를 분석한 결과는 때로는 오랜 경험에서 오는 직관보다 훨씬 강합니다. 그 직관이 판사의 것이건, 스카우터나 감독의 것이건 말이지요. 


 하지만 데이터의 통계적 분석과 추론은 만능이 아닙니다. 대표적으로, 그것은 전체적인 추세를 벗어나는 이탈이나 변화의 움직임을 포착하는데 서툽니다. 기본적으로 데이터의 통계적 분석과 추론에는 ‘한 사람 한 사람은 특수할 수 있지만, 전체적으로 보면 경향을 발견할 수 있고, 이런 경향이 계속해서 유지된다.’라는 가정이 있습니다. ‘자료를 분석한다.’ 함은 과거에 일어난 여러 사건에 존재하는 추세를 발견하여 모델을 만든다는 말입니다. 그리고 그 모델로 미래를 예측하지요. 밀그램이 9개의 주요 요인으로 재범 확률을 계산하는 모델을 만들고 그것으로 사람들을 판단하려 한 것처럼 말입니다. 그렇기에 이런 추론에서는 과거와 다른 방식으로 행동하는, 별종 같은 사례나 사람을 주목하지 않습니다. ‘우연히 나타나는 사소한 차이’라고 여길 뿐입니다. 


 이는 생각보다 심각한 문제일 수 있습니다. 별종과 같은 이탈 사례가 발생 빈도나 확률이 작을지언정, 중요하지 않은 것은 아니기 때문입니다. 때로는 그것에서 지금의 추세와 경향을 근본적으로 변화시킬 수 있는 힘을 발견할 수 있습니다. 예를 들어 나이가 어리고 폭력 전과가 존재하는 등, 밀그램의 모델에 따르면 향후 폭력 범죄를 저지를 확률이 높지만, 희한하게도 어떤 과정을 거쳐서 범죄로부터 멀어진 사람이 있다고 합시다. 그는 밀그램의 모델에서는 포착되지 않습니다. 오히려 부당하게 취급받을 공산이 클 것입니다. 하지만 만약 폭력 범죄자를 감옥에 가두어서 보이지 않게 하는 것이 목표가 아니라, 근본적으로 시민들 간의 폭력을 점차 없애는 것이 목표라면, 이런 사람이야말로 주목해야 할 사람입니다. 그 사람의 인생사에서 폭력의 악순환에서 벗어날 수 있는 귀중한 지혜를 발견할 수 있을지도 모릅니다. 야구도 마찬가지입니다. 이제까지 구속이 빠르고 구종이 많은 투수가 성공하는 경향이 있었기에 그런 투수만을 계속 기용했다면, 보스톤 레드삭스의 팀 웨이크필드나 두산 베어스의 유희관 같은, 느릿느릿한 공으로 타자를 돌려세우면서 야구에 색다른 재미를 부여하는 선수들을 보지 못했을지도 모릅니다. 


좌측은 유희관 선수고 우측은 웨이크 필드 선수입니다. 

파이어볼 시대에 느릿느릿한 볼로 타자를 돌려세우면서 관중을 열광케 했습니다. 



 이외에도 자료의 통계적 추론에는 여러 장점과 단점이 있습니다. 데이터 과학의 산물을 활용할 때, 이런 장단을 인지하는 것과 그렇지 않은 것은 큰 차이를 낳습니다. 두 번째로 소개해드릴 서호철의  「통계적 규칙성과 사회학적 설명」이라는 논문은 통계적 추론의 역사적 발전 과정과 그 영향을 다루고 있는데요, 이는 데이터 과학이 성립 초기부터 가지고 있었던 성격을 드러냄으로써 통계의 강점과 약점을 좀 더 근본적으로 성찰할 수 있게 해줍니다. 논문에서 잘 설명하듯이, 통계는 애초에 국가 통치와 관련된 지식이었습니다. 통계(‘stat’istics)라는 명칭 자체가 국가(state)와의 관련성을 표현하고 있습니다. 근대 국가가 세금이나 병역의 문제로 인구의 여러 현황을 파악해야 했음을 떠올려보면, 통계와 통치의 연결은 자연스럽습니다. 이 과정에서 전체 인구 차원에서 살피면 시간이 지나도 안정적으로 유지되는 여러 경향적 특성이(ex. 자살률, 출생률 등) 발견되었고, 이 특성들 간의 관계가 연구되기 시작했습니다. 그리고 이는 (지금은 너무나 당연시되고 있는) ‘사회’와 같은 추상적 실체를 입증하는 근거가 되었습니다. 



[한국사회학]이라는 학술지의 제41집 5호에서 찾아보실 수 있습니다!^^

학교나 지역 도서관 컴퓨터에서 검색/출력하시면 저렴하게 찾아보실 수 있습니다.



 통계가 가지는 취약점은 통계적 추론이 등장한 역사적 배경을 반영하는 것인지도 모르겠습니다. 19세기 통치가 기본적으로 현 상태의 균형을 자연스럽게 유지하고 위험을 최소화하는 활동이었음을 염두에 둔다면, 이를 가능하게 했던 통계적 추론이 중심적 경향 바깥에 있는 별종에 주목하지 않는 것은 어쩌면 자연스러운 일입니다. 그것은 통치와 아무런 관련이 없는 위험 요소일 뿐이기 때문입니다. 물론 통계적 추론이 19세기의 속성을 그대로 가지고 있다는 말은 아닙니다. 통계적 추론은 많은 발전과 변화를 겪어왔습니다. 하지만 이런 성립배경이 그 발전과 변화의 방향에 영향을 미쳤음은 부정하기 어려울 듯합니다. 


 바야흐로 통계의 전성기라고 해도 좋을 만한 시대입니다. 정부만이 아니라, 거의 모든 영역에서 통계적 근거는 큰 신뢰를 받고 있습니다. 하지만 어떤 지식이든 무언가를 보이게만 하지는 않습니다. 뭔가를 보이게 하면서 다른 뭔가는 보지 못하게 방치합니다. 뭔가를 보이게 한다 함은 그것에 시선을 유도하는 것이고, 시선을 유도하는 것은 그 이외의 것을 부차적인 배경으로 만드는 일이기 때문입니다. 통계도 마찬가지입니다. 저는, 통계가 보이게 만드는 것과 더불어 그것이 가리는 것도 함께 고려해야만, 통계적 추론이 가지는 장점을 극대화할 수 있다고 믿습니다. 그리고 밀그램의 강연과 서호철의 논문은, 이런 고민을 시작하는 좋은 출발점이라 생각합니다.