오늘 STAT603 수업이 상당히 흥미로웠는데 2시간 동안 한번도 focus를 놓치지 않고 수업에 집중한건 정말 오랜만이었다. 
누구나 한번쯤은 이런 생각을 하였을 것이다. “대통령 선거전에 표본 집단 몇 천명을 대상으로 사전 poll을 해보면 가령 xx%로 이명박씨가 1위, 박근혜씨가 2위 후보로 나오는데 실제 당선 결과는 poll 결과와 항상 다르다.” 물론 막판 뒤집기라는게 있어서 막판에 국민들이 결정을 바꾸는 경우도 있지만 세상살이 대부분의 사전 poll 이라는게 실제 결과와는 너무 다르게 나온다.
왜 그럴까? Stine 교수는 이걸 샘플링의 문제라고 설명한다. 쉽게 설명하면, 임의의 1,000명을 대상으로 poll을 한 후, 다시 임의의 다른 1,000명을 대상으로 poll을 하면 결과가 완전히 다르게 나올 수 있기 때문에 표본을 정할때는 sample variation, 즉 표본간의 차이를 고려해야한다는 말이다. 이 point를 보여주기 위하여 간단한 실험을 하겠다고 하면서 가방에서 큰 박스를 꺼냈는데 m&m; 쵸코렛박스였다. 2-3명의 그룹을 만들어서 쵸코렛을 한 그룹에 하나씩 나눠주면서 각 봉지에 몇 개의 쵸코렛이 들어있으며, 이 중 파란색의 m&m;이 전체 봉지의 몇 퍼센트를 차지하는지 기록해 놓으라고 하였다. 내가 받은 봉지에는 m&m; 54알이 있었는데 이 중 파란색은 달랑 3개 즉 5.6% 정도 밖에 없었다. 옆의 그룹은 총 52알 중 파란색이 5개로 9.6% 그리고 전체적으로 그룹마다 이 숫자에 조금씩 편차가 있었다. 자, 그러면 이런 시나리오를 생각해보자. m&m; 초코렛 곻장에서 전체 초코렛 중 파란색의 %를 계산해보려고 샘플링을 한다고 생각해보자. 우리 그룹의 초코렛을 임의로 고른다면 전체 초코렛 중 파란색이 5.6%라고 기록을 할테고, 옆 그룹의 초코렛을 고른다면 9.6%라고 결론을 내릴 것이다. 어떤 숫자가 전체를 대변할 수 있는 숫자인가? 솔직히, 아무도 모르는 것이다. 왜냐하면 조사하는 샘플에 따라서 파란색의 숫자가 계속 바뀌기 때문이다. 그러므로, 정확한 %를 구하려면 여러 샘플간의 차이를 고려한 숫자를 구할 수 있어야 한다. 특별히 어려운 개념은 아니지만 한번도 이런식으로 생각을 해본적이 없었기 때문에 혼자서 고객를 막 끄덕거렸다. 참 흥미로운 사실은 m&m; 초코렛 공식 웹사이트를 가면 소비자들이 각 색깍별로의 함유량을 웹에 기록할 수 있는데 놀랍게도 24% 였다.

투표 poll의 질문으로 다시 가보면, poll을 하는 대상에 따라서 대선후보 지지율에 큰 차이가 생기기 때문에 예상하였던 것과 실제 결과가 항상 다른것이다. 각 poll 대상 샘플들 간의 편차 또는 표준편차를 고려한 샘플링을 해야하는것이다. 통계 결과를 해석하는 새로운 view에 대해서 생각할 수 있었던 좋은 기회였다.