[통계] 기술통계와 샘플링 2편 - 코로나 바이러스(Covid-19) 통계 해석 사례

기술통계를 어떻게 해석하고, 개별 통계값을 이해하는 과정에서 해석 시 주의해야 될 점을 사례 위주로 설명한다. 최근 이슈가 되고 있는 코로나 바이러스(Covid-19) 통계값들을 살펴보면서 해당 통계값들이 갖는 한계점과 어떻게 해석할 수 있는지를 다룬다.

이야기에 앞서 기술통계의 개념과 이해가 아직 부족하다면 이전에 포스팅한 아래 게시글을 먼저 살펴보길 권장한다.
바로가기: [통계] 기술통계와 샘플링 1편 - 개념 정의

1. 사례 선정 배경

코로나 바이러스(Covid-19) 통계를 기술통계를 설명하기 위한 사례로 선정한 이유는 가장 최근에 화두가 되고 있는 현상에 대한 통계라 많은 사람들의 관심도가 높고, 해당 통계값들은 단순 기술통계값으로 실제 현실 통계를 해석하기에 한계가 분명하기 때문에 적절한 사례가 될 수 있다고 생각했다.

2. 사례 특징

코로나와 관련된 실제 현실 통계의 특징은 다음과 같다.

첫째, 실제 감염자 수를 정확히 추정할 수 없는 통계값이다.

해당 통계값이 실제 감염자 수를 정확히 추정할 수 없는 이유는 해당 통계가 현재 병원에 검사를 통해서 확인된 결과로 보고된 통계값이기 때문이다. (이하 실제 현실에서의 통계와 보고된 통계의 개념으로 구분하여 설명하였다.)

전세계 질병 관리 전문가들에 따르면 무증상 감염이나 가벼운 증상으로 실제로 감염이 되었음에도 보고되지 않고 있는 사례가 많을 것으로 추정하고 있다.

이에 따라 해당 통계에서 가장 중요한 통계값인 보고된 "총 감염자 수"가 실제 현실에서의 "총 감염자 수"로 볼 수 없을 가능성이 높다는 것이다. 실제 현실에서의 "총 감염자 수"를 알 수 있다는 것은 해당 질병이 어느 정도의 전파력을 가졌는지, 사회적으로 어느 수준으로 감염 후 면역이 된 상태인지, 질병으로 인한 사망률 등을 정확하게 추정할 수 있음을 의미한다.

둘째, 특정 통계값은 통계를 해석하는 관점에 따라 해석을 달리할 수 있는 여지가 있다.

코로나 바이러스 통계를 설명하는 특정 통계값들은 이전 포스팅의 50점과 48점 케이스와 같이 2점 차이로 A등급과 F등급으로 해석될 수 있는 것과 같이 해석을 달리할 수 있는 여지가 있다.

예를 들어, 코로나 통계에서 보고되는 통계값으로 "총 검사수"가 있다. "총 검사수"의 의미는 두 가지 측면에서 유의미한 값으로 해석될 수 있다.

코로나가 바이러스에 의한 감염 질병이라는 점에서 잠복기나 증상이 약한 초기 단계에서는 감염 여부 확인이 어렵다는 측면에서 정확한 확진을 위해서는 일정 주기를 두고 반복 검사가 필요할 수 있다.

이런 측면에서 "총 검사수"가 많다는 것은 질병 감염 관리를 심층적으로 할 수 있음을 의미한다.

또한 "총 검사수"가 많다는 것은 잠재적으로 더 많은 감염자수를 발견할 수 있음을 의미하며, 이는 위에서 언급한 실제 현실에서의 "총 감염자 수"를 추정하는데, 조금 더 근접한 통계값을 가질 수 있다는 것을 의미한다. 단, 이 경우 특정 조건을 부가적으로 확인해야 하는데, 이는 아래에서 다시 언급하겠다.

3. 사례 분석

아래 그림은 코로나 통계와 관련한 가상의 케이스를 도식화한 것이다.

3.1. 사례 A

국가 A에는 총 인구가 15명이고, 실제 감염자수는 8명이 있다. 이때, 실제 감염자수를 국가 A에서는 알지 못하는 상태라고 가정해보자.

country_a

해당 국가의 질병관리당국에서 바이러스 감염자(Infected person)을 찾기 위해 1차 검사(1st inspection group)를 진행하였고, 4명의 감염자를 찾아냈다. (2번, 3번, 4번, 5번) 이때 보고된 통계는 다음과 같다.

총 감염자 수: 4명
총 검사 수: 4회

이후 4명은 격리가 되었고, 확진 판정을 위해서 4명의 감염자에 대해서 반복 검사를 2차(2nd inspection group), 3차(3rd inspection group)로 진행하였다. 3차 검사를 종료한 시점에 보고된 통계는 다음과 같다.

총 감염자 수: 4명
총 검사 수: 12회

3.2. 사례 B

국가 B에는 총 인구가 15명이고, 실제 감염자수는 8명이 있다. 이때, 실제 감염자수를 국가 B에서는 알지 못하는 상태라고 가정해보자.

country_b

해당 국가에서는 1차 검사에서 4명의 감염자를 발견했고, 이들을 격리조치 했다. 하지만 2차 검사에서는 국가 A의 케이스와 달리 1차 검사에서 확인된 4명의 감염자에 대해서 검사를 진행하지 않았다.

이유는 의료진이 아직 1차 검사에서 확진된 4명의 감염자의 증상이 완화되지 않았기 때문에 추가 검사를 진행할 필요가 없다고 판단했기 때문이다.

하지만 국가 B에서는 2차 검사에서 의심은 됐지만 실제로는 감염되지 않은 2명(7번, 8번)을 발견했고, 3차 검사에서도 의심은 됐지만 실제로는 감염되지 않은 2명(9번, 10번)에 대해 검사를 진행했다. 3차 검사를 종료한 시점에 보고된 통계는 다음과 같다.

총 감염자 수: 4명
총 검사 수: 12회

3.3. 결과 분석 및 해석

3차 검사 이후 통계를 분석해보면 "총 검사 수"(검사를 수행한 횟수)만 가지고 국가 A와 국가 B의 통계값을 비교하면 언뜻 보기에는 크게 차이가 없어 보인다.

위에서 언급한 실제 현실에서의 "총 감염자 수" 8명 중, 보고된 "총 감염자 수" 4명을 발견하지 못한 것은 동일하기 때문이다.

또한 "총 검사 수"에 있어서도 두 국가 모두 12회로 동일하기 때문에 이 두가지를 놓고 보면 각 국가의 검사 역량 등에 있어서도 큰 차이는 없어 보인다. (같은 기간에 더 많은 검사수를 진행할 수 있다는 것은 해당 국가가 가진 진단키트 확보량이나 검사장비 등의 역량을 가졌음을 의미할 수 있다.)

하지만 여기서 기술통계의 한계가 드러나게 된다. 기술통계값을 아래와 같이 조금만 다르게 해석을 해보자.

국가 A의 총 검사자 수: 4명
국가 B의 총 검사자 수: 8명

"총 검사자 수"란 실제 감염 여부와 상관없이 검사를 진행한 단위 인구를 의미한다. 국가 A의 경우 동일한 4명이 반복해서 검사를 받았기 때문에 검사자 수는 4명이 되지만 국가 B는 서로 다른 8명을 대상으로 검사가 진행됐음을 알 수 있다.

총 검사자 수는 왜 중요할까?

"총 검사자 수"가 중요한 이유는 위에서 가정한 바와 같이 국가 A와 국가 B는 실제로 감염된 "총 감염자 수"를 알지 못하고 있다. 보고된 감염자가 아닌 실제 감염된 숫자를 모르기 때문에 더 많은 검사자 수를 가질 수록 실제 감염된 감염자를 발견할 확률이 높아지기 때문에 "총 검사자 수"가 중요한 것이다.

이러한 이유로 보고된 "총 감염자 수"와 함께 "총 검사자 수"가 갖는 의미는 굉장히 중요하다. "총 검사자 수"가 높으면서 보고된 "총 감염자 수"가 높다는 것은 보고된 "총 감염자 수"가 실제 현실에서의 "총 감염자 수"에 근접할 가능성이 높다는 것을 추정할 수 있다는 것이다.

하지만 대부분의 통계값 보고는 보고된 "총 감염자 수"에 집중이 되어 있고, 이를 비교하여 어떤 국가의 감염자수가 많은 지를 비교하는 것에만 초점이 맞춰져 있는 것이 현실이다.

아무리 "총 검사 수"가 많아도 "총 검사자 수"가 적으면 그만큼 실제 현실에서 감염된 사람을 발견하지 못하고 있음을 의미하기 때문에 "총 검사자 수"는 무엇보다도 중요한 기술통계값으로 활용되어야 한다.

다시 말해, "총 검사자 수"가 많은 국가에서 보고된 "총 감염자 수"가 많은 것은 어쩌면 당연한 것이며, 이를 단순히 "총 감염자 수"가 높다는 이유로 해당 국가에 문제가 있다고 볼 수 없다.

오히려 "총 검사 수"가 적더라도 더 많은 "총 검사자 수"를 갖는 국가가 있다면 해당 국가의 보고된 "총 감염자 수"는 다른 국가의 "총 감염자 수" 통계값보다 실제 현실의 통계값에 더 가까운 신뢰할 수 있는 통계값이라고까지 가정해볼 수 있다.

아래 테이블에서 "총 검사자 수(Total tests)"를 살펴보자. "총 검사자 수"가 가장 많은 국가는 미국(2624만명)으로 전체 감염자 수가 많은 것과 비례해 "총 검사자 수"도 매우 높게 나타나고 있다. "인구 백만명 당 검사자 수(Tests/1M pop)"은 전체 인구에서 몇 명이 감염 결과 여부와 상관없이 검사를 받았는지를 의미하는 수치로, 각 국가간 서로 다른 인구수 차이를 조금 더 쉽게 비교하기 위한 측면에서의 통계값이다. (이 부분까지를 설명하자면 내용이 길어지니 일단 생략하겠다.)

국가 간 비교를 하고자 한다면 이 "인구 백만명 당 검사자 수"를 비교해보면 된다. 10,000명 단위가 전체 인구의 1%의 수치를 나타낸다.

예를 들어, "인구 백만명 당 검사자 수"가 10,000명 이라면 전체 인구에서 1%가 검사를 받았다는 것을 의미한다는 것이다.

미국은 대략 전체 인구의 7.9% 정도가 검사를 받았고, 주목해볼만한 통계는 러시아(Russia), 영국(UK), 스페인(Spain)은 전체 인구의 10%에 가까운 인구가 검사를 받았음을 의미한다.

covid19_statistics_top20

(출처: https://www.worldometers.info/)

6월 18일 기준, 전세계에서 보고된 전체 감염자 수는 약 840만명으로 전세계 인구가 약 60억이라는 가정하면 전세계 인구 중 보고된 감염자 비율은 대략 0.1%에 해당된다. 물론 이 통계에는 특정 국가에서 감염자 수를 보고하지 않아서 실제 감염자 숫자가 적을 수 있기 때문에 실제 감염자 수 비율은 더 높을 것으로 보인다.

전 세계를 기준으로 실제 "총 감염자 수"가 보수적으로 보고되었다고 가정했을 때, "총 검사자 수"는 해당 국가 인구 전체의 최소 0.1% 이상의 기준이 되어야 하고, 이상적으로는 5~10% 내외라면 충분히 의미있는 숫자가 될 수 있을 것으로 보는 것이 합리적이라 할 수 있다.

다시 말해 위 테이블의 Tests/1M pop 수치가 50,000명 이상이 되면 보고된 "총 감염자 수" 통계 실제 현실에서의 "총 감염자 수" 통계를 어느 정도 신뢰할 수 있는 수준이 될 수 있다는 것이다.

퍼센트에 대한 절대적 기준이 없기 때문에 정확하게 이야기할 수는 없지만 이상적으로 봤을 때, "총 검사자 수"는 높으면 높을 수록 좋다는 것을 의미한다.

3.4. 한계점 및 추가논의

위에서 언급한 "총 검사자 수"가 높다는 것은 보고된 "총 감염자 수"가 실제 현실에서의 "총 감염자 수"와 어느 정도 일치하는 지를 신뢰할 수 있는 수치로서 중요하다고 했다.

총 검사자 수가 낮다면 무조건 문제가 있는 것인가?

그렇다면 위와 같은 질문을 할 수 있을 것이다. 이는 별개의 문제로 해석을 해볼 수 있다. 예를 들어, 특정 국가에서 보고된 "총 감염자 수"가 현저히 낮고, 추가적으로 보고되는 "신규 감염자 수"가 없다면 이를 두고 "총 검사자 수"가 단순히 낮은 것을 문제삼을 이유는 없다.

이는 이미 충분한 통제를 통해서 실제 현실의 "총 감염자 수"에 근접한 보고된 "총 감염자 수" 통계를 반영하고 있을 가능성이 높기 때문이다.

다만 현재도 계속 보고되는 "신규 감염자 수"가 꾸준히 발생되고 있다면 "총 검사자 수"가 인구 대비 적게 나타나고 있다면 검사 방식에 대한 문제와 통계 발표에 대한 진단을 다시 해볼 필요가 있다는 것이 중요한 것이다.

예를 들어, 동일한 인구 수의 두 국가가 있다고 가정해보자. 국가 A는 "총 감염자 수"가 국가 B에 비해 높지만 "신규 확진자 수"가 크게 늘지 않고 있고, 국가 B는 "총 감염자 수"는 국가 A에 비해 낮지만 "신규 확진자 수"가 늘고 있다고 보자.

이 경우 국가 B는 "총 검사자 수"가 적어서 보고된 "총 감염자 수"가 적게 집계 되고 있는 것은 아닌지 의심해볼 수 있다.

국가 A의 보고된 총 감염자 수(100명), 총 검사자 수(200명), 총 인구(10000명)
국가 B의 보고된 총 감염자 수(50명), 총 검사자 수(100명), 총 인구(10000명)

신뢰할 수 있는 총 검사자 수를 높이기 위해서는 어떻게 해야 할까?

가장 좋은 방법은 특정 집단(특정 계층 샘플링)을 대상으로 검사를 진행하거나 특정 집단의 검사를 반복하여 단순히 "총 검사 수"를 늘리는 것보다 다양한 집단(다 계층 샘플링)을 대상으로 검사를 진행하여 "총 검사자 수"를 늘리는 것이다. (샘플링 방식과 관련해서는 추후 다른 콘텐츠로 별도 다룰 예정이다.)

예를 들어, 검사 조건이 특정한 조건(예: 콜센터, 신천지, 클럽)으로 국한되는 게 아니라 의사의 소견에 따라서 자유롭게 검사를 진행할 수 있게 한다면 검사에 의한 양성 사례를 단순히 발견하는 게 아니라 하더라도 다양한 집단에 대한 더 많은 사람들에 대한 검사가 가능해질 것이다.

물론 이 경우 보고되는 "총 감염자 수"가 일시적으로는 늘어날 가능성이 있다. 현실에서 무증상, 가벼운 증상, 감염경로 미상 등을 이유로 검사가 진행되지 않아 실제로 집계되지 않던 감염자들이 집계가 될 것이기 때문이다.

그에 따른 여러 가지 사회적 비용이 발생할 수 있기 때문에 이를 감당할 수 있는지에 대한 문제는 각 국가의 상황에 따라 별개로 봐야겠지만, 신규 감염자에 대한 통제가 제대로 되지 않고 있고, 검사를 할 수 있는 여력이 충분하다면 더 많은 "총 검사자 수"를 확보하여 발견하지 못하고 있는 실제 감염자를 찾아내는 것이 전체 사회 비용 측면에서는 더 유리할 수도 있다.

결론적으로는 발견되지 않고 있는 감염자들이 실제 현실에 존재할수록 이 현상은 더 장기화 될 수 밖에 없이기 때문이다.

4. 결론

앞서 사례를 통해 언급했던 것처럼 기술통계는 여러가지 한계점을 갖기도 하고, 해석하기에 따라서 통계 결과가 양호해 보일 수도 있고, 부적절해 보일 수도 있다.

중요한 것은 기술통계값은 한가지 통계값만 가지고 해석을 하다보면 실제 결론을 내리는데 여러가지 제약사항이 발생하고, 실제 현실을 왜곡할 여지가 높다는 것에 있다.

통계를 제대로 이해한다는 것은 이처럼 한가지 통계값을 통해 내린 결론을 이해하는 것이 아니라 해당 통계값이 갖는 실제 의미를 이해하기 위한 해석을 얼마나 잘 할 수 있느냐에 있는 것이다.

기술통계도 제대로 된 해석을 할 수 있다면 충분히 유의미한 결과를 분석해 낼 수 있다. 많은 사람들이 이런 안목을 갖고 통계를 볼 수 있었으면 하면서 글을 마친다.

이 블로그 검색

UNCLESOON'S BLOG