Olasılık ve İstatistik

Simpson Paradoksu: İstatistiklere Neden Her Zaman Güvenmemeliyiz?

Simpson paradoksu istatistiğin çarpıtılabileceğini, farklı bakış açıları ile farklı sonuçların elde edilebileceğini gözler önüne serer.

Birkaç gün sonra kardeşinizin doğum günü ve kutlama için restoran seçme işini sizin yapmanız istendi. İnternette yaptığınız bir araştırmadan sonra, incelemelerde 4,5’ten fazla puan alan A adlı bir restoranı seçtiniz. Ancak B restoranı da fena gözükmüyor. Durumu arkadaşlarınıza danıştığınızda onlar emin olmak için incelemeleri 40 yaş altı ve 40 yaş üstü olarak ikiye ayırmaya karar verdiler. Şimdiki analiz ise bu iki grubun aslında çevrimiçi derecelendirmesi 4,2 olan B restoranını tercih ettiğini gösteriyor. Grubu böldükten sonra ne değişti? Aslında değişen bir şey yok, sadece Simpson’s Paradoksuna sıkışıp kaldınız. Ne demek istediğimizi daha iyi anlamak için aşağıdaki tabloya göz atabilirsiniz.


40 Yaş Altı40 Yaş Altı
A restoranını seçen kişilerin oranı80/100 = 80%370/400 = 92.5%450/500 = 90%
B restoranını seçen kişilerin oranı326/400 = 81.5%94/100 = 94%420/500 = 84%

A ve B restoranına yapılan toplam yorumları karşılaştırıldığında,% 90’ının birinciyi tercih ettiği; ancak % 84’ünün ikincisini tercih ettiği görülmektedir. Fakat incelemeler iki gruba ayrıldığında, B restoranı daha çok tercih edilen olarak karşımıza çıkıyor. Bu paradoksun açıklama düzeyindeki değişimden kaynaklanıyor.

İstatistiksel Yanılsama

Veri analizlerinin ve istatistiğin önemi her geçen gün artmaktadır. İstatistik verileri toplar, analiz eder ve yorumlar. Yorumlama esnasında da etiğin ön planda olduğu kabul edilir. Ancak Homer Simpson’ın da dediği gibi “İstediğiniz herhangi bir şeyi kanıtlamak amacıyla istatistikten faydalanabilirsiniz.” Yanlı seçimler, bilime değil de amaca uygun yapılan istatistiksel çıkarımlar ile farklı farklı türden bilginin taraflı tahmini mümkündür. Dolayısıyla istatistiksel etiğin ihmal edilmesi ile gerçek istatistikler yerine ‘yanlı’ istatistikler ortaya çıkar. Ne yazık ki, bazen de Simpson Paradoksu nedeniyle yanlış sonuçlara varabilirsiniz. Simpson’s Paradoksuna göre, belirli bir veri kümesinden elde edilen bir sonuç, aynı veri kümesi alt gruplara bölündüğünde tersine çevrilebilir.

Simpson Paradoksu

Edward Hugh Simpson: 1922-2019

Simpson’ın Paradoksu, istatistikçiler arasında farklı isimlerle bilinir. Edward H. Simpson İngiliz İstatistikçi, şifre kırıcı ve kendi adıyla anılan Simpson Paradoksunun yaratıcısıdır. Bu Paradoks, 1951 yılında yayınladığı “The Interpretation of Interaction in Contingency Tables – Acil Durum Tablolarında Etkileşim Yorumu” adlı makalede yer alır. Ancak bu garip durumu gören ilk kişi o değildir. 1903’te Udny Yule ve 1899’da Karl Pearson da benzer bir kavramdan bahsetmektedir. Bu nedenle paradoks Yule-Simpson etkisi olarak da adlandırılır. 1981’de Lindley ve Novick tarafından yayınlanan “The role of exchangeability in inference” adlı makale Simpson’s Paradoksunun bir analizini yapar. Araştırmacılara göre bu paradoksun ortaya çıkmasıyla analiz sonucunda elde edilen istatistiklerin doğru olup olmadığının bilinmesinin çok zor olacağı sonucuna varırlar.

Simpson Paradoksu İle İlgili Örnekler

Simpson Paradoksu örneklerle anlatılabilir. Fakat ne zaman ortaya çıkacağını kestirmek güçtür. Spor, sağlık, eğitim, sosyal bilimler gibi pek çok alanda bu paradoksa rastlamak mümkündür.

Berkeley Üniversitesi Örneği

Berkeley Üniversitesi 1973 yılında üniversiteye kabul şartlarında cinsiyet ayrımı yaptığı gerekçesiyle dava edilir. Üniversiteye kabul başvurularında toplanan istatistiksel verilere bakıldığında başvuru yapan erkeklerin %44’ü kadınların ise %35’i üniversiteye kabul edilmiştir. Üniversiteye başvuran kadın sayısı 4321 iken erkeklerin sayısı 8442’dir. Toplamda kabul edilen kadın öğrenci sayısı 1512 olurken erkek öğrenci sayısı 3714‘tür. Rakamlar incelendiğinde cinsiyet ayrımı suçlamasının doğru olduğu sonucuna varılabilir. Oysaki durum bundan farklıdır. Veriler gruplandırılmamış yani ham verilerdir. Mahkeme tarafından veriler bölüm bölüm gruplandırılınca ortaya şöyle bir tablo çıkar:

Tabloya bakıldığında kadın öğrenciler, üniversitenin en büyük 6 bölümünün 4’ünde erkek öğrencilere göre daha fazla kabul almıştır. Yani A, B, D ve F bölümlerine kabul gören erkek sayısı kadın sayısına göre daha azdır. Şöyle ki erkekler en fazla öğrenci kabul edilen bölüme başvuruyu daha fazla yaparken kız öğrenciler ise en az öğrenci kabul edilen bölüme daha fazla başvuru yapmıştır. Bu sebeple grup yüzdeleri ile toplam yüzdeleri birbirinden farklılık göstermektedir. Konuyu pekiştirmek için başka bir örnekle devam edelim.

Böbrek Taşı Tedavisi

Böbrek taşı tedavisi için A ve B gibi 2 farklı metot vardır. A tedavisi tüm açık cerrahi işlemleri içerirken B tedavisi küçük ya da büyük böbrek taşları ile ilgili tedavileri içerir. Aşağıdaki tabloda metotların ayrı ayrı başarı yüzdeleri ile birlikte her 2 tedavinin ortak başarı yüzdeleri de yer alır.

Küçük ve büyük taşlarda her 2 grupta da A metodunun başarı oranı yüksekken (%93 – %87) – (%73 -%69), toplam başarı oranına bakıldığında ise B metodu (%83) A metoduna (%78) göre daha iyidir. Doktorun, hastayı tedavi ederken hangi metodu seçeceğine karar vermesi aşamasında nedensellik sorunu ile Simpson Paradoksu devreye girer. (Nedensellik sorunu korelasyon kavramı ile birlikte incelenmelidir ve bu kavramın açıklanması yazının dışına bırakılmıştır.)

Simpson Paradoksu, bize verilerin tek başına tüm sorunların derdine deva olamayacağı gerçeğini gösterir. Ayrıca verilere dayalı olarak her zaman doğru tahminlerde bulunamadığımızı hatırlatır. Özellikle tıp alanındaki çalışmalar başta olmak üzere istatistiksel çıkarımları etkileyecek paradokslardan kaçınmak için randomizasyon önemliyken, Simpson Paradoksu örneklerinde olduğu gibi günlük yaşantımızda karşımıza çıkan paradoksların çözüm kabiliyetini kazanmak içinse algılarımızı genişletmemiz gerekir. 

Kaynaklar ve ileri okumalar:

Matematiksel

Olgun Duran

Ömür boyu öğrencilik felsefesini benimsemiş amatör tiyatro oyuncusu ve TEGV gönüllüsü; kitaplarından, doğaya hayranlığından, yeni yerleri görmekten, gittiği yerlerin kültürünü keşfetmekten ve bunların uğruna çabalamaktan vazgeç(e)meyen kişi...  

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.