Hayatımızdaki Matematik

Simpson Paradoksu: İstatistiklere Neden Her Zaman Güvenmemeliyiz?

Karmaşık istatistiksel olguları anlamak çoğu zaman zordur. Bu zorluk özellikle sağduyuya ters düşen durumlarda daha da belirginleşir. Simpson Paradoksu bu tür durumların en çarpıcı örneklerinden biridir.

simpson paradoksu
Homer Simpson’ın da dediği gibi “İstediğiniz herhangi bir şeyi kanıtlamak amacıyla istatistikten faydalanabilirsiniz.”

Bu paradoks, veriler ayrı gruplar hâlinde incelendiğinde görülen bir eğilimin, gruplar birleştirildiğinde ortadan kaybolması ya da tamamen tersine dönmesiyle ortaya çıkar.

Bunu bir yemek tarifiyle karşılaştırmak mümkündür. Her bir malzemenin kendine özgü bir tadı vardır. Ancak bu malzemeler bir araya geldiğinde ortaya çıkan lezzet, tek tek tattıklarımızdan oldukça farklı olur.

Veriler de benzer biçimde davranır. Ayrı ayrı ele alındıklarında belirli bir hikâye anlatırlar. Ancak birleştirildiklerinde bambaşka bir sonuç ortaya koyabilirler. Şimdi bu durumu somut örnekler üzerinden ele alalım.

Simpson Paradoksu
Edward Hugh Simpson: 1922-2019. Simpson Paradoksunun yaratıcısıdır. Bu Paradoks, 1951 yılında yayınladığı “The Interpretation of Interaction in Contingency Tables – Acil Durum Tablolarında Etkileşim Yorumu” adlı makalede yer alır.

Simpson Paradoksu İle İlgili Örnekler

Birkaç gün sonra kardeşinizin doğum günü var ve kutlama için restoran seçme görevi size düşüyor. İnternette yaptığınız araştırmada, inceleme puanı 4,5’in üzerinde olan A restoranını seçiyorsunuz. B restoranı da fena görünmüyor; ancak puanı biraz daha düşük. Konuyu arkadaşlarınıza açtığınızda, emin olmak için incelemeleri 40 yaş altı ve 40 yaş üstü olarak iki gruba ayırmayı öneriyorlar.

Bu ayrıştırmayı yaptığınızda ilginç bir sonuç ortaya çıkıyor. Her iki yaş grubunda da kullanıcılar, çevrimiçi puanı 4,2 olan B restoranını A’ya tercih etmiş görünüyor. Peki grubu böldüğünüzde ne değişti?

Aslında veriler değişmedi. Yalnızca onları farklı bir şekilde okumaya başladınız ve kendinizi Simpson Paradoksu’nun tam ortasında buldunuz. Ne demek istediğimiz aşağıdaki tabloya bakıldığında daha net anlaşılacaktır.


40 Yaş Altı40 Yaş Üstü
A restoranını seçen kişilerin oranı80/100 = % 80370/400 = % 92.5450/500 = % 90
B restoranını seçen kişilerin oranı326/400 = % 81.594/100 = % 94420/500 = % 84

Bu durumu daha somut hâle getirmek için bir başka örneği ele alalım. Diyelim ki hangi üniversiteye gideceğinize karar vermeye çalışıyorsunuz. İlgilendiğiniz üniversitenin geçen yıl erkek başvuranların yüzde 30’unu, kadın başvuranların ise yalnızca yüzde 21,3’ünü kabul ettiğini öğreniyorsunuz. Bu tablo ilk bakışta açık bir cinsiyet ayrımcılığına işaret ediyor gibi görünüyor.

Ancak rakamlara bu kez bölümlere göre baktığınızda durum değişir. Üniversitede yalnızca iki bölüm vardır: matematik ve edebiyat. Edebiyat bölümü erkek başvuranların yüzde 40’ını, kadın başvuranların ise yüzde 42’sini kabul etmiştir. Matematik bölümünde ise erkeklerin kabul oranı yüzde 10, kadınlarınki yüzde 11’dir.

Yani bölümler ayrı ayrı incelendiğinde, tersine, kadınlar lehine bir fark ortaya çıkar. Bu durum da Simpson paradoksunun tipik bir örneğidir.

Tıbbi Denemelerde Simpson Paradoksu

İki farklı ilacın etkinliğini karşılaştırdığınızı düşünün. Biri yeni geliştirilen bir ilaç, diğeri ise uzun süredir kullanılan eski bir ilaç olsun. Amacınız, belirli bir hastalığın tedavisinde hangisinin daha etkili olduğunu belirlemek. Bu ilaçları farklı hasta gruplarına uyguluyor ve sonuçları analiz ediyorsunuz. İki gün süren basit bir klinik deneye bakalım.

1. Gün

İlk gün yeni ilacı geniş bir hasta grubuna uygularsınız. İlacı alan 90 hastanın 63’ünde tedavi başarılı olur. Başarı oranı yüzde 70’tir. Aynı gün eski ilacı yalnızca 10 hastaya verirsiniz ve bu hastaların 8’inde olumlu sonuç alırsınız. Bu da yüzde 80’lik bir başarı oranı demektir. İlk bakışta eski ilaç daha etkili görünür.

  • Yeni ilaç: 90 hasta, 63 başarı, başarı oranı %70
  • Eski ilaç: 10 hasta, 8 başarı, başarı oranı %80
  • İlk sonuç: Eski ilaç daha başarılı gibi görünür.

2. Gün

İkinci gün tablo yine benzer görünür. Bu kez yeni ilacı küçük bir gruba uygularsınız. İlacı alan 10 hastanın yalnızca 4’ü iyileşir ve başarı oranı yüzde 40’a düşer. Eski ilacı ise daha büyük bir gruba verirsiniz. 90 hastanın 45’inde tedavi işe yarar ve başarı oranı yüzde 50 olur. Yine eski ilaç önde gibidir.

  • Yeni ilaç: 10 hasta, 4 başarı, başarı oranı %40
  • Eski ilaç: 90 hasta, 45 başarı, başarı oranı %50
  • İkinci sonuç: Eski ilaç yine daha başarılı görünür.

Ancak iki günü birlikte değerlendirdiğinizde şaşırtıcı bir durum ortaya çıkar. Toplamda yeni ilaç 100 hastanın 67’sinde işe yaramıştır. Eski ilaç ise 100 hastanın yalnızca 53’ünde başarılı olmuştur. Yani veriler birleştirildiğinde yeni ilaç daha etkilidir.

Bu çelişkili durum Simpson paradoksunun tipik bir örneğidir. Gün gün bakıldığında eski ilaç daha iyi görünürken, tüm veriler bir araya getirildiğinde tablo tersine döner. Bunun nedeni, grupların büyüklüklerinin ve dağılımlarının sonuçları belirgin biçimde etkilemesidir. Tıbbi çalışmalarda yalnızca yüzdelere bakmanın ne kadar yanıltıcı olabileceğini bu örnek açıkça gösterir.

İlaç Etkinliği Denemelerinde Simpson Paradoksu

Simpson paradoksunu bu kez bir ilaç deneyi üzerinden daha ayrıntılı inceleyelim. Belirli bir hastalığın tedavisinde gerçek bir ilacı, etkisiz bir şeker hapıyla karşılaştırdığınızı varsayalım.

Bu deneyde hastaları dört yaş grubuna ayırıyorsunuz: yaşlılar (A grubu), orta yaşlılar (B grubu), genç yetişkinler (C grubu) ve çocuklar (D grubu). İlacın etkinliğini, ilacı aldıktan sonraki iki gün içinde iyileşen hastaların oranı ile ölçüyorsunuz. Önce şeker hapı verilen gruba bakalım.

  • A grubu: 20 hasta, 2 başarı, başarı oranı %10
  • B grubu: 40 hasta, 8 başarı, başarı oranı %20
  • C grubu: 120 hasta, 48 başarı, başarı oranı %40
  • D grubu: 60 hasta, 18 başarı, başarı oranı %30
  • Toplam: 240 hasta, 76 başarı, başarı oranı %31,7

Şimdi de gerçek ilacı alan grubu inceleyelim.

  • A grubu: 120 hasta, 18 başarı, başarı oranı %15
  • B grubu: 60 hasta, 18 başarı, başarı oranı %30
  • C grubu: 20 hasta, 18 başarı, başarı oranı %90
  • D grubu: 40 hasta, 18 başarı, başarı oranı %45
  • Toplam: 240 hasta, 72 başarı, başarı oranı %30

İlk bakışta sahte hap daha başarılı görünür. Ancak verileri yaş grupları içinde ayrı ayrı incelediğinizde tablo tamamen değişir. Gerçek ilaç, her bir yaş grubunda şeker hapından daha yüksek bir iyileşme oranı sağlar.

Şeker hapı verilen grupta, doğal iyileşme olasılığı zaten yüksek olan genç yetişkinler sayıca fazladır. Bu dengesiz dağılım, şeker hapının genel başarı oranını olduğundan yüksek gösterir. Buna karşılık gerçek ilacı alan grupta, doğal iyileşme olasılığı daha düşük olan yaşlı hastalar ağırlıktadır ve bu durum toplam başarı oranını aşağı çeker.

Bu nedenle veriler birleştirildiğinde şeker hapı daha etkiliymiş gibi görünür. Oysa yaş grupları ayrı ayrı incelendiğinde gerçek ilaç her grubun içinde daha başarılıdır.

Sonuç Olarak

Simpson Paradoksu’nun ardındaki etkenleri anlamak, verileri çok daha sağlıklı biçimde yorumlamamızı sağlar. Paradoks özellikle gruplara ayrılmış verilerle çalışırken dikkatli analiz yapmanın önemini vurgular.


Kaynaklar ve ileri okumalar:

  • Armistead, Timothy W., 2014, “Resurrecting the Third Variable. A Critique of Pearl’s Causal Analysis of Simpson’s Paradox”, The American Statistician, 68(1): 1–7. doi:10.1080/00031305.2013.807750
  • Bandyopadhyay, Prasanta S., Davin Nelson, Mark Greenwood, Gordon Brittan, and Jesse Berwald, 2011, “The Logic of Simpson’s Paradox”, Synthese, 181(2): 185–208. doi:10.1007/s11229-010-9797-0
  • Maths in a minute: Simpson’s paradox; Kaynak site: Plus Math. Yayınlanma tarihi: % Kasım 2010. Bağlantı: https://plus.maths.org/

Matematiksel

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.