5 분 소요

  • 작성자 : 통실돼지
  • 일자
    • 게재: 2023-01-10
    • 수정: 2023-01-11

빈도주의 (Frequentism)와 베이즈주의 (Bayesianism)

0. 시작하기에 앞서 (Before the beginning)

  • 본 포스트에서는 확률을 바라보는 관점이 서로 다른 빈도주의와 베이즈주의를 소개합니다.
  • 빈도주의와 베이즈주의는 서로 다른 의견을 제시하므로, 실제로 어느 쪽이 더 옳은지 혹은 대립되는 의견인지에 대해 학계에서는 논쟁거리가 되고 있습니다.
  • 더 자세한 내용이 궁금하신 분들은 구글링을 통해서 여러 사람들의 생각을 들어보는 것을 추천드립니다.

1. 들어가는 글 (Introduction)

아래 글은 재미로만 읽어주세요!
흥미를 돋구기 위한 (19금) 들어가는 글입니다.
“~다”체로 일화를 소개하겠습니다.

언젠가 친구 A가 난처한 상황(19금)에 처했을 적에 재미난 이야기를 했었다.
A가 말했다.
“손만 잡고 잤는데… 여차저차해서 사후 피임약을 복용했는데…”
그러면서 계속 피임 성공률에 대한 자료를 찾아보았다.
찾아보니 관계 이후 사후피임약을 24시간 내 복용했을 때 95%의 성공률을 보인다며[1], 희박한 실패 확률의 존재 때문에 A는 온종일 불안에 떨었다.
그런 A에게 농담삼아 “100명의 A중에 5명의 A는 웃을 수 없을 거라고”, “A 주니어 벌써 보는거냐”고 막 놀려대었던 기억이 있다.
그러면서 든 생각은, “5명의 A는 웃지 못한다면 그들은 100%의 실패 확률을 가진 것일까?” 라는 의문이었다.

상기 의문을 두 가지로 정리해보면,

  • 5명의 A는 웃지 못한다면, 그들은 100%의 실패 확률을 가진 것일까? 그렇다면 피임 성공률이 95%라고 할 수 있을까?
  • 100명의 A 모두가 95%의 확률을 가진다면, 정말 극악의 확률로 100명 모두가 A 주니어를 볼 수 있는 것인가? 그렇다면 피임 성공률이 95%라고 할 수 있을까?

아마도 상기 의문(과 비슷한 의문)에서 빈도주의베이즈주의에 대한 논쟁이 시작되지 않았나 싶습니다.
상기 의문에 대한 답은 마지막 장에서 논해보겠습니다.

2. 빈도주의란?

  • 개념
    • 철저히 실제 데이터에 기반을 둔 해석 방법입니다.

    • 직접 수행한 실험에 의한 결과를 토대로 낸 통계로 현상을 설명합니다.

    • 무수히 많은 실험을 수행한다면 가장 정확한 확률을 계산할 수 있다고 믿습니다.

    • 확률을 장기적으로 일어나는 사건의 빈도라고 여깁니다.

    • 모수 (parameter)를 알지 못하지만 고정된 상수라고 여깁니다.

  • 장점
    • 실제 결과에 의존한 해석 방법이므로, 가장 이상적인 확률 계산법입니다.

    • 사전, 사후 확률에 대한 내용이 없고, 베이즈 추론에 비해 계산량이 적습니다.

    • 정규 분포를 띄는 사건에 대해 해석이 용이합니다.

  • 단점
    • 사전 확률을 모르면 확률의 신뢰도가 떨어집니다.
    • 무수히 많은 실험을 수행하기 어렵습니다.
    • 실험 데이터가 불확실하거나 부족하다면, 그에 따른 결과가 불확실할 수 있습니다.
    • 극단적인 데이터에 민감합니다.

3. 베이즈주의란?

베이즈 정리 (Bayes’s theorm)는 18세기 토마스 베이즈가 역확률 (inverse probability)을 계산하기 위해 고안한 방법으로, 과거에 사건이 일어난 횟수 또는 일어나지 않은 횟수만을 근거로 미래의 불확실한 사건의 확률을 계산하는 방법입니다[5, 6].
이러한 베이즈 정리는 베이즈주의의 기반이 됩니다.

  • 개념
    • 고정된 데이터의 관점에서 파라미터에 대한 신념의 변화에 근거한 해석 방법입니다.

    • 가설이나 확률에 대한 믿음의 정도를 “양 (quantity)”으로 나타냅니다.

    • 사전 확률과 가능도 (likelihood)로 나타나는 기존 지식이나 주관을 활용하여, 새롭게 일어날 사건을 추정하게 됩니다. (베이즈 정리 참고[2-4])

    • 확률을 사건 발생에 대한 믿음 혹은 척도라고 여깁니다.

    • 모수를 확률적으로 변하는 확률 변수 (random variable)라고 여깁니다.

  • 장점
    • 현재 수많은 데이터를 취득 및 활용할 수 있기 때문에 편향되지 않은 사전 확률 분포를 추출할 수 있으며, 사후 확률 분포를 완벽하게 해석할 수 있습니다.

    • 극단적인 데이터에 대해 강건합니다.

    • 데이터가 주입될 때 마다 사용할 수 있습니다.

    • 비교적 작은 데이터로도 확률의 계산이 가능합니다.

  • 단점
    • 기존 지식을 이용한 사전 확률 값 혹은 분포가 필요합니다.

    • 편향되지 않은 주관(기존 지식) 기반의 사전 확률 혹은 확률 분포를 활용하기 어렵습니다.

4. 빈도주의 vs 베이즈주의

4.1 예시

다음은 빈도주의와 베이즈주의의 해석 방법의 차이를 나타내는 예시입니다.

  • 예시 1 - 동전을 던졌을 때 앞면이 나오는 사건에 대한 확률은 얼마나 되는가?
    • 빈도주의자: 동전을 무수히 던져 앞면이 나오는 횟수를 측정했더니, 그 ‘확률’은 0.5에 가깝게 계산됩니다.
    • 베이즈주의자: 동전을 던져 앞면이 나온다는 주장의 신뢰도가 0.5입니다.

      어떤 사건에 대한 확률을 빈도주의자는 객관적 확률로, 베이즈주의자는 주관적 확률로 해석함을 확인할 수 있습니다.

  • 예시 2 (부적절한 예시입니다만…) - “영화는 훌륭한데 충무로와 평론가들이 감독이 코미디언이라고 까는 거다”[7]
    • 빈도주의자: 수 많은 평행우주가 있고 똑같은 영화가 똑같은 상황으로 개봉되었을 때, 음모를 품고 영화를 깎아내리는 우주가 그 중 몇 %, 진짜로 영화가 좋지 못해서 깎아내리는 우주가 몇 %입니다.
    • 베이즈주의자: 처음에는 음모 때문이라는 이론에 강한 믿음을 가지고 있었는데, 여러 글을 읽어보니 그 이론에 대한 믿음이 떨어져 주장에 대한 신뢰도가 결과적으로 몇 %가 되었습니다.

      베이즈주의자에게 베이즈 정리는 단순히 역확률을 계산하는 공식이 아니라, 믿음의 합리적인 변화 과정을 보여주는 공식임을 알 수 있습니다.
      다시 말해, 빈도주의자는 어떤 진실된 값을 찾는 노력을 하는 반면, 베이즈주의자는 어떤 가설에 대한 믿음을 재조정하는 과정을 통해 진실된 값을 찾아갑니다.

4.2 입장 차이

그렇다면 빈도주의와 베이즈주의는 대립되는 입장일까요?

  • 예시 3 - 앞과 뒤가 균일한 동전을 세 번 던져서 모두 앞면만 나온 사건이 존재할 때, 동전을 한 번 던져서 앞면이 나올 사건에 대한 확률은 얼마일까요?[7]
    • 빈도주의자: 동전의 앞면이 나올 확률이 50%인 경우 3번 시행 모두 앞면이 나올 사건에 대한 가능도는 12.5%인 반면, 무조건 앞면만 나오는 동전일 경우 이 사건에 대한 가능도는 100%이므로 이 동전은 앞면만 나오는 동전이라는 이론을 지지합니다.
    • 베이즈주의자: 사전에 어떤 믿음을 가지고 있느냐에 따라 다르지만, 앞면이 나올 확률이 50%라고 믿었는데 동전 3개가 모두 앞면인 것을 보니 동전의 앞면이 나온다는 주장을 50%이상의 확률 (예를 들어 60%)로 지지하게 됩니다.

      3번의 동전 던지기 예시에서는 베이즈주의적 관점이 더 좋은 것처럼 보입니다. 만약 가정한 사전 확률이 50%가 아니라 1%였다면, 믿음을 보정하는데 많은 노력이 필요하겠지만요.
      재밌는 것은, 만약 똑같은 동전을 3번이 아닌 무수히 많이 던진다고 가정하면 빈도주의자든 베이즈주의자든 결국 똑같은 주장을 지지할 것이라는 겁니다.

      빈도주의자는 무수히 많은 실험 결과를 종합하여 주장에 대한 참 확률값을 도출할 것이며, 베이즈주의자는 무수히 많은 신뢰도를 보정한 뒤 참에 가까운 확률값을 도출할 것이기 때문에!

빈도주의와 베이즈주의는 서로 경쟁적인 측면을 가지고 있지만, 각 방법이 가지는 장단점이 있는 것으로 보입니다.

4.3 빈도주의와 베이즈주의의 관계

빈도주의베이즈주의상호 보완적인 관계라고 볼 수 있습니다.

  • 데이터가 많다면, 기존 지식 (사전 확률 분포)이 사후 확률에 미치는 영향은 미미한 반면 관측된 데이터의 영향이 막대하여 빈도주의적 관점으로 해석할 수 있습니다.
  • 데이터가 많지 않다면, 기존 지식 (사전 확률 분포 & 가능도)을 활용하여 베이즈주의적 관점으로 사후 확률을 추정할 수 있습니다.

따라서, 빈도주의와 베이즈주의는 경쟁적인 관계도 맞지만, 상호 보완적인 관계도 맞습니다.
각 방법마다의 가치가 있으니 이를 잘 활용하여 통계적 모델링을 수행할 수 있어야 하겠습니다.

5. 마무리하며 (Closing Remarks)

빈도주의와 베이즈주의를 요약하자면 다음과 같습니다.

  • 빈도주의
    • 무수한 실험 결과 해석하여 고정된 참 값 추정
    • 충분한 양의 데이터 존재 시, 해당 데이터셋의 해석으로 참 값 도출
    • 무수히 많은 실험 수행의 어려움
  • 베이즈주의
    • 기존 지식 (사전 확률 분포 & 가능도) 기반 믿음의 정도 보정하여 참 값 추정
    • 적은 데이터로도 사후 확률 분포 추정 가능
    • 기존 지식의 불편향 & 객관성 보장 필요

서론에서 제기했던 의문에 대한 답은 사실 실험적으로 극악의 확률 (0.05$^{100}$)이 나오지도 않거니와, 무수한 실험을 해보면 95%에 가까운 피임 성공률을 보인다 입니다. 사실 두 관점 모두 동일한 상황을 A가 재현하여 측정한 결과 값을 확인해야 하므로 말이 되지 않습니다.

  • 빈도주의
    • A가 겪었던 상황을 똑같이 재현한 평행우주의 무수한 반복측정 끝에 정확한 피임 성공률(약 95%)을 알 수 있을 것입니다. (사실 말도 안됩니다 ㅎㅎ…)
  • 베이즈주의
    • 이론적인 피임 성공률 (95%)과 A가 피임에 성공했을 때 사후 피임약을 먹은 경우에 대한 가능도를 기반으로 믿음을 보정했을 때, 사후 피임약을 먹었을 때 A가 피임에 성공할 사건에 대한 믿음의 정도는 약 95%로 나타낼 수 있을 것입니다. (사실 이것도 말 안됩니다 ㅎㅎ…)

그러나 기존 지식인 95%라는 사후피임 성공확률은 비슷한 조건의 충분히 많은 경우에 대한 조사를 기반으로 도출되었을 것입니다.
따라서 A와 비슷하며 충분히 많은 경우에 대해 조사한다면, 빈도주의적 관점으로도 95%라는 값에 근접하게 나올 것이며, 베이즈주의적 관점으로도 95%라는 믿음의 정도를 벗어나지 않을 것이라고 말할 수 있을 것입니다.

그럼에도 사후피임 성공확률은 100%가 아니니, 100%가 되게끔 애초에 잘하자라고 첨언할 수 있겠네요… ㅋㅋ

감사의 말
재미있는 예시가 되어준 친구 A에게 감사를 표합니다…

6. 참고문헌 (References)

[1] 데일리 Naver post, “피임 성공률 95%? 사후 피임약 복용 시 부작용은?,” Link
[2] Wikipedia, “Bayes’ theorem,” Link
[3] 나무위키, “베이즈 정리,” Link
[4] 공돌이의 수학정리노트 github blog, “베이즈 정리의 의미,” Link
[5] 위키백과, “베이즈 확률론,” Link
[6] 데이터 공부하는 송 Tistory blog, “[확률과 통계] 베이지안 확률 (빈도주의 vs 베이즈주의),” Link
[7] 구조론연구소 관계로 세상을 바라본다, “빈도주의 vs 베이즈주의,” Link


Etc…

  • 더 열심히 하겠습니다! 부족한 부분 코멘트해주세요 (:

읽어주셔서 감사합니다!!

댓글남기기