[통계] 기술통계와 샘플링 1편 - 개념 정의

기술통계(Descriptive statistics)는 ‘설명을 위한 통계’라는 의미와 같이 우리가 쉽게 이해할 수 있는 통계값들을 통칭하는 것이다. 합계, 평균, 편차 등은 대표적인 기술통계값들이다. 이해하기 쉬운 측면에서의 기술통계는 장점도 분명히 있지만, 실제 현실 통계를 왜곡할 수 있다는 단점도 있다. 기술통계에 대한 개념에서부터 실제 통계값들을 의미 있게 해석하는 과정을 실제 사례를 통해 다뤄본다.

statistics_icon_official

이번 포스팅의 목적은 많은 사람들이 접하게 되는 기술통계(Descriptive statistics)에 대한 이해와 기술통계를 제대로 이해하기 위한 배경에서의 샘플링 개념 등을 함께 이야기할 것이다.

1. 기술통계 개념

기술통계(Descriptive statistics)는 사전적 의미 그대로 어떤 현상을 통계적으로 설명(Description)하기 위한 통계를 의미한다.

통계가 설명을 하기 위한 게 아니면, 그럼 뭔가? 라고 하는 사람들도 있을 것이다.

이해를 돕기 위해 조금 더 자세히 설명하면 우리가 흔히 이야기 하는 합계, 평균, 편차 등의 값들이 대표적인 이 기술통계값이라고 보면 된다. 

이런 통계값들을 통해 통계를 분석, 해석하는 것을 기술통계라고 하는구나 정도로 이해하면 된다.

우리가 일상에서 흔히 접하는 대부분의 통계값들이 이 기술통계에 해당되는데, 기술통계의 장점은 이해하기가 직관적이고 매우 쉽다는 것에 있다. 기술통계는 장점이 명확한 만큼 단점도 분명한데, 단순히 기술통계값 만으로는 실제 현실의 통계를 이해하고, 해석하는 것에 한계가 있을 수 밖에 없다는 것은 단점이 될 수 있다.

2. 기술통계 개념 이해를 위한 사례

예를 들어, 몇 개의 섬으로 이루어져 있는지 모르는 '국가 A'가 있다고 가정해보자.  어느날 이 국가의 통계청은 다음과 같은 내용이 궁금했다.

‘우리 나라의 인구는 총 몇 명이고, 인구의 성비(sex ratio)는 어떻게 될까?’

통계 조사원은 일정 기간 동안의 조사 활동을 통해 다음과 같은 결과를 도출했다.

“우리나라의 총 인구는 2000명이다.”
“남자와 여자는 각각 1000명씩으로 성비는 1:1이다.”

위의 기술 통계값을 다시 설명해보면 "총 인구" 통계값은 인구의 “합계”, "성비"는 전체 인구  중 남자와 여자의 “합계”를 상대 비율로 표현한 값임을 알 수 있다.

참고로 통계값으로써의 성비를 위와 같이 표현하지는 않지만, 이해를 돕기 위해 단순화하여 표현하였다.

이 통계값들이 정말 해당 국가의 총 인구와 성비를 대표할 수 있을까? 여기서의 대표라는 말은 실제로 전체 인구를 다 조사했을 때의 결과에 얼마나 근접한 통계값이 될 수 있는지에 대한 질문인 것이다.

조금 더 이해를 돕기 위해 다음과 같은 가정을 한번 더 해 보았다. 

위의 조사 결과는 총 10개의 섬에 대해서 조사를 한 것이고, 조사원은 해당 국가에 섬이 10개 밖에 없다고 생각하고 위와 같은 결론을 내렸다. 그러던 어느 날 섬이 1개 더 발견이 되었습니다. (위의 대전제에서와 같이 해당 국가는 몇개의 섬으로 이루어졌는지 밝혀지지 않았다고 가정했었다.) 조사 결과 이 섬에서는 1000명의 사람이 추가로 살고 있는 것으로 확인되었고, 1000명 모두 여자였다.

이렇게 되면 위에서 조사했던 2000명의 총 인구는 실제 전체 인구 3000명의 약 66%밖에 대표하지 못한 통계값이 된다. (전체 인구가 실제 3000명인데, 2000명만 조사가 된 것임에 따라 간단하게 2000/3000의 결과로 설명하였다.) 성비 역시 1:1이 아니라 1:2로 실제 성비와는 2배 가까운 차이를 보였다.

기술 통계값을 갖고 실제 현상을 설명하다보면 위와 같은 한계점이 발생하게 된다. 또한 우리가 통계를 적용하는 대부분의 현상들은 실제 현실에서 통계값을 대표하고 반영하고 있지 않을 가능성이 높다. 다시 말해, 섬이 몇개인지 실제 몇명의 인구가 있는지를 모르는 상태이기 때문에 대부분 통계조사를 하게 되는 역설적인 상황이 통계에서는 흔히 일어난다.

기술통계의 이와 같은 한계때문에 “추론통계(Inferential statistics)” 또는 “고급통계”란 개념이 생겨났다. 기술통계값과 달리 확인하기 어려운 실제 현실의 통계를 추정, 검정하는 개념을 포함한 통계값이 추론통계엔 포함된다. 

다음과 같이 선거 때 출구조사 등을 통해서 당선자가 누가 될 것인가를 이야기할 때, 많이 듣게 되는 통계값이 추론통계값이라고 이해하면 된다.

“95% 신뢰구간에서 표본오차 ±0.25%의 확률로 당선자 A가 당선될 것으로 보인다.”

오늘은 추론통계를 이야기하는 시간이 아니니 이 정도로 간단히만 이야기 하겠다. 하여튼 이렇게 되면 "기술통계는 정확하지도 않는데, 왜 쓰는 건가?", "기술통계는 믿을 게 못 되나?" 라는 질문이 있을 수 있다.

이에 대한 답은 기술통계는 그 자체로 충분히 유용하다고 할 수 있다. 실제 현실의 통계를 정확히 이해하고, 예측하는 건 물론 어렵지만 그 자체로 충분히 직관적이고 의미있는 해석이 가능하기 때문이다. 이를 통해 더 세밀하게 추론통계 분석 등을 할지 말지에 대한 의사결정 등도 할 수 있다.

예를 들어, 학교A에서 중간고사를 봤다고 했을 때, "1학년 학생들의 국어 과목의 평균", "2학년 학생들의 국어 과목의 평균" 등은 이미 그 자체로 의미가 있는 결과값이 될 수 있습니다. 

또 다른 예로 전국의 학교에서 한 날 한 시에 동일한 모의고사를 치뤘다면 "각 학교의 성취도 평균"에 대한 비교는 충분히 의미가 있을 수 있다.

3. 기술통계를 설명하기 위한 조건

위의 예시들은 살펴보면 기술통계값이 의미있게 해석이 되려면 몇 가지 조건이 필요함을 알 수 있다.

해당 통계값은 현실 통계를 반영하기에 충분히 대표성을 가질 수 있는가?

위의 중간고사의 예시처럼 이미 학교의 전체 학생 수를 알고 있는 상황에서 기술통계는 충분히 의미를 가질 수 있다.

해당 통계값은 통계값을 설명하기 위한 별도의 가정 없이 충분히 설명가능한가?

위의 모의고사 예시에서 실제 각 학교의 학생 수는 각기 다를 수 밖에 없다. 또한 공부를 잘하는 학생 몇명이 학교의 전체 성적을 끌어 올리고 있는지 학생들 전반에서 성적이 양호한지는 단순히 기술통계값으로는 설명이 어렵다. 

다만 그렇다하더라도 모든 학교의 학생들이 동일한 시험을 치뤘고, 그에 따른 학교별 학업성취도 평균값을 비교한다는 점에서는 충분히 의미있는 비교가 될 수 있다. (각 학교의 개별 학생들의 성취도가 고른지 고르지 않은지 등의 해석은 별개로 두더라도 말이다.)

반대로 각 학교에서 제각각 치뤄진 중간고사 점수를 학교별 학업성취도 값으로 비교하는 것은 통계 해석에 문제가 있을 수 있다. 이러한 이유는 학교 마다의 출제된 중간고사 문제의 난이도가 기본적으로 다를 수 있기 때문에 학교 간의 학업성취도를 설명하고 해석하기위해 해야할 가정이 너무 많아지기 때문이다. 

4. 기술통계의 특징

기술통계값은 실제 현실의 단편적 현상을 설명하기 때문에 어떤 통계값을 선정하여 현상을 설명할 것인가가 매우 중요하다. 다시 말해, 잘못된 기술통계값을 가지고 잘못된 해석을 하여 결론을 내릴 여지가 충분히 있다는 것이다.

예를 들어, 대학교에서 상대평가 방식을 통해서 학업성취도를 평가한다고 가정해보자. (상대평가는 정해진 인원은 반드시 정해진 등급을 받아 서열화하는 방식의 평가방식이다.) 학업성취도에 따라서 학생들은 A등급에서부터 F등급까지를 부여받는다.

이 때, 학생A는 100점 만점 과목에서 50점을 맞았고, 학생B는 48점을 맞았다고 가정해보자. 50점을 맞은 학생A는 100점 만점에 50점으로 50%의 성취도 밖에 달성하지 못한 것으로 보인다. 학생B도 48점으로 48%의 성취도를 이룬 것으로 학생A와 그 차이가 얼마 없는 것처럼 보인다. 

해당 학과의 전체 학생은 10명이었고, 학생A를 포함한 9명은 50점을 맞았고, 학생B만 48점을 맞았다면 학생A는 A등급을 받지만, 학생B는 F등급을 받게 되는 경우가 발생한다.

학생B의 학업성취도는 학생A에 비해 형편 없다고 볼 수 있을까?

4. 기술통계를 올바르게 이해하는 방법

기술통계는 위에서 설명한 것처럼 얼만큼 통계값이 분석된 배경을 이해하고, 이를 정확하게 해석할 수 있느냐가 매우 중요하다. 통계 분석 자체의 결론보다는 해석을 하는 관점에따라 전혀 다르게 설명될 수 있음에 유의해야 한다. 

다시 말해, 기술통계값으로 실제 결과값이 좋게 보이는 것들, 혹은 나쁘게 보이는 것들이 실제 현실에서의 통계 결과에서는 큰 차이를 보이지 않는 상황일 수 있고(위의 50점과 48점의 경우), 이러한 배경에 대한 이해가 없다면 잘못된 해석에 따른 치명적 오류를 범할 수도 있다는 것이다.

통계는 분석이나 해석된 결론 자체를 이해하는 것보다 분석된 통계값 자체가 실제 현상을 설명할 수 있는지, 내려진 결론에 오류나 한계가 없는지를 검증하는 것이 더 중요하다. 이를 유념하고 통계를 보다보면 통계가 조금 더 친숙해질 것이다.

오늘은 기술통계가 무엇이고, 기술통계값을 어떻게 이해해야 되는지에 대한 기본 개념 위주로 설명을 했다. 다음 포스팅에서는 조금 더 현실적인 사례를 통해 기술통계값을 어떻게 해석하고 결론을 내릴 수 있는지에 대해서 조금 더 초점을 맞추어 설명하겠다.

바로가기: [통계] 기술통계와 샘플링 2편 - 코로나 바이러스(Covid-19) 통계 해석 사례 

댓글

인기 게시글

[오류해결] KMS 인증(Activation) 오류(error) 0xC004F017 문제 원인 및 해결 방법

[오류해결] 카카오톡 PC 버전 접속 오류(일시적인 장애이거나 네트워크 문제일 수 있습니다. 잠시 후 다시 이용해 주세요. 오류코드 70101, 11002, LL)와 다음(daum.net), 티스토리(tistory.com) 접속 오류(오류코드 DNS_PROBE_FINISHED_NXDOMAIN) 문제