Matematik Ne İşe Yarar?

Simpson Paradoksu: İstatistiklere Neden Her Zaman Güvenmemeliyiz?

Simpson paradoksu istatistiğin çarpıtılabileceğini, farklı bakış açıları ile farklı sonuçların elde edilebileceğini gözler önüne serer.

Birkaç gün sonra kardeşinizin doğum günü ve kutlama için restoran seçme işini sizin yapmanız gerekiyor.. İnternette yaptığınız bir araştırmadan sonra, incelemelerde 4,5’ten fazla puan alan A adlı bir restoranı seçtiniz. Ancak B restoranı da fena gözükmüyor. Durumu arkadaşlarınıza danıştığınızda onlar emin olmak için incelemeleri 40 yaş altı ve 40 yaş üstü olarak ikiye ayırmaya karar verdiler. Bu analiz iki grubun aslında çevrimiçi derecelendirmesi 4,2 olan B restoranını tercih ettiğini gösteriyor.

Peki ama grubu böldükten sonra ne değişti? Aslında değişen bir şey yok, sadece Simpson’s Paradoksuna sıkışıp kaldınız. Ne demek istediğimizi daha iyi anlamak için aşağıdaki tabloya göz atabilirsiniz.


40 Yaş Altı40 Yaş Üstü
A restoranını seçen kişilerin oranı80/100 = % 80370/400 = % 92.5450/500 = % 90
B restoranını seçen kişilerin oranı326/400 = % 81.594/100 = % 94420/500 = % 84

A ve B restoranına yapılan toplam yorumları karşılaştırıldığında,% 90’ının birinciyi tercih ettiği; ancak % 84’ünün ikincisini tercih ettiği görülmektedir. Fakat incelemeler iki gruba ayrıldığında, B restoranı daha çok tercih edilen olarak karşımıza çıkıyor. Simpson paradoksu bize, bazen verilerin söylediği şey ile gerçeğin birbiri ile aynı olmadığını gösteriyor. Bu durum ilgili gerçek sayıları göz ardı edip sadece yüzdelere baktığınızda ortaya çıkıyor.

Sayılar ile Uğraşırken İstatistiksel Yanılsama Mümkündür

İstatistik verileri toplar, analiz eder ve yorumlar. Yorumlama esnasında da etiğin ön planda olduğu kabul edilir. Ancak verilerle, dikkatli olmamız gerekir. Nereden geldi? Nasıl elde edildi? Ve gerçekten ne diyor? Bunların hepsi, veriler sunulduğunda sormamız gereken iyi sorulardır. 

Homer Simpson’ın da dediği gibi “İstediğiniz herhangi bir şeyi kanıtlamak amacıyla istatistikten faydalanabilirsiniz.” Yanlı seçimler, bilime değil de amaca uygun yapılan istatistiksel çıkarımlar ile farklı farklı türden bilginin taraflı tahmini mümkündür.

Dolayısıyla istatistiksel etiğin ihmal edilmesi ile gerçek istatistikler yerine ‘yanlı’ istatistikler ortaya çıkar. Bunun sonucunda da yanlış sonuçlara varabilirsiniz. Simpson’s Paradoksunun da bize gösterdiği gibi, belirli bir veri kümesinden elde edilen bir sonuç, aynı veri kümesi alt gruplara bölündüğünde tersine çevrilecektir. Olası başka sorunları bu yazımızda kaleme almıştık: İstatistikler Bilgilerini Yanlış Yorumlamanın 7 Büyük Günahı ve Bunlardan Kaçınma Yolları

Simpson Paradoksu İle Nasıl Tanıştık?

Simpson Paradoksu
Edward Hugh Simpson: 1922-2019

Simpson’ın Paradoksu, istatistikçiler arasında farklı isimlerle bilinir. Edward H. Simpson İngiliz İstatistikçi, şifre kırıcı ve kendi adıyla anılan Simpson Paradoksunun yaratıcısıdır. Bu Paradoks, 1951 yılında yayınladığı “The Interpretation of Interaction in Contingency Tables – Acil Durum Tablolarında Etkileşim Yorumu” adlı makalede yer alır. Ancak bu garip durumu gören ilk kişi o değildir.

1903’te Udny Yule ve 1899’da Karl Pearson da benzer bir kavramdan bahsetmektedir. Bu nedenle paradoks Yule-Simpson etkisi olarak da adlandırılır. 1981’de Lindley ve Novick tarafından yayınlanan “The role of exchangeability in inference” adlı makale Simpson’s Paradoksunun bir analizini yapar. Araştırmacılara göre bu paradoksun ortaya çıkmasıyla analiz sonucunda elde edilen istatistiklerin doğru olup olmadığının bilinmesinin çok zor olacağı sonucuna varırlar.

Simpson Paradoksu İle İlgili Örnekler

Simpson Paradoksunun ne zaman ortaya çıkacağını kestirmek güçtür. Spor, sağlık, eğitim, sosyal bilimler gibi pek çok alanda bu paradoksa rastlamak mümkündür. Bilinen bir örnek aşağıdaki gibidir.

Berkeley Üniversitesi 1973 yılında üniversiteye kabul şartlarında cinsiyet ayrımı yaptığı gerekçesiyle dava edilmişti. Üniversiteye kabul başvurularında toplanan istatistiksel verilere bakıldığında başvuru yapan erkeklerin % 44’ü kadınların ise % 35’i üniversiteye kabul edilmiştir.

Üniversiteye başvuran kadın sayısı 4321 iken erkeklerin sayısı 8442’dir. Toplamda kabul edilen kadın öğrenci sayısı 1512 olurken erkek öğrenci sayısı 3714‘tür. Rakamlar incelendiğinde cinsiyet ayrımı suçlamasının doğru olduğu sonucuna varılacaktır. Oysaki durum bundan farklıdır. Veriler gruplandırılmamış yani ham verilerdir. Mahkeme tarafından veriler bölüm bölüm gruplandırılınca ortaya şöyle bir tablo çıkar:

Tabloya bakıldığında kadın öğrenciler, üniversitenin en büyük 6 bölümünün 4’ünde erkek öğrencilere göre daha fazla kabul almıştır. Yani A, B, D ve F bölümlerine kabul gören erkek sayısı kadın sayısına göre daha azdır. Şöyle ki erkekler en fazla öğrenci kabul edilen bölüme başvuruyu daha fazla yaparken kız öğrenciler ise en az öğrenci kabul edilen bölüme daha fazla başvuru yapmıştır. Bu sebeple grup yüzdeleri ile toplam yüzdeleri birbirinden farklılık göstermektedir. Konuyu pekiştirmek için başka bir örnekle devam edelim.

Paradoks ile İlgili İkinci Bir Örnek

Simpson Paradoksu

Böbrek taşı tedavisi için A ve B gibi 2 farklı metot vardır. A tedavisi tüm açık cerrahi işlemleri içerirken B tedavisi küçük ya da büyük böbrek taşları ile ilgili tedavileri içerir. Aşağıdaki tabloda metotların ayrı ayrı başarı yüzdeleri ile birlikte her 2 tedavinin ortak başarı yüzdeleri de yer alır.

Simpson Paradoksu

Küçük ve büyük taşlarda her 2 grupta da A metodunun başarı oranı yüksekken (%93 – %87) – (%73 -%69), toplam başarı oranına bakıldığında ise B metodu (%83) A metoduna (%78) göre daha iyidir. Doktorun, hastayı tedavi ederken hangi metodu seçeceğine karar vermesi aşamasında nedensellik sorunu ile Simpson Paradoksu devreye girer. (Nedensellik sorunu korelasyon kavramı ile birlikte incelenmelidir ve bu kavramın açıklanması yazının dışına bırakılmıştır.)

Simpson Paradoksu, bize verilerin tek başına tüm sorunların derdine deva olamayacağı gerçeğini gösterir. Ayrıca verilere dayalı olarak her zaman doğru tahminlerde bulunamadığımızı hatırlatır. Özellikle tıp alanındaki çalışmalar başta olmak üzere istatistiksel çıkarımları etkileyecek paradokslardan kaçınmak için randomizasyon önemliyken, Simpson Paradoksu örneklerinde olduğu gibi günlük yaşantımızda karşımıza çıkan paradoksların çözüm kabiliyetini kazanmak içinse algılarımızı genişletmemiz gerekir. 

İstatistik hataları farklı biçimlerde karşımıza çıkar.  Bazen istatistikçiler çok yüksek düzeyde bir istatistiksel anlamlılıkta “nedensel bir etkinin” varlığını kabul edebilirler. Bir örnek için bu yazımıza da göz atabilirsiniz: Şansız Sayılar: Ölüm Meleği Lucia de Berk Ve Bir Cadı Avı Hikâyesi


Kaynaklar ve ileri okumalar:

Matematiksel

Olgun Duran

Ömür boyu öğrencilik felsefesini benimsemiş amatör tiyatro oyuncusu ve TEGV gönüllüsü; kitaplarından, doğaya hayranlığından, yeni yerleri görmekten, gittiği yerlerin kültürünü keşfetmekten ve bunların uğruna çabalamaktan vazgeç(e)meyen kişi...  

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu