OLASILIK / İSTATİSTİK

Simpson Paradoksu ile İstatistiksel Yanılsamalara Bir Bakış

İstatistik yalan söylemez, insanlar yalan söyler...

Simpson Paradoksu örneklerle anlatılabilir. Fakat ne zaman ortaya çıkacağını kestirmek güçtür…

Paradoks, Yunanca para ‘ileri’ ve doxa ‘düşünce, inanış’ kelimelerinden türemiş, Türkçesi ‘karşıtlık/çelişki’ olarak ifade edilmiş ve sözlük anlamı ‘görünüşte yanıltıcı olan canlı, şey ya da durum’ olarak tanımlanmış ifadedir.

Paradoks aslında insanın aklında var olan ve doğruluğundan şüphe duyulmayan bir bilginin kendi içinde karşıtlık barındırması ve zihnin algılarına ters düşmesi olarak da tanımlanabilir.

Paradoksların tarihi çok eskilere yani Batı Felsefesinin ilk zamanlarına dayanır. Tarihte bilinen ilk paradoks örneği Epimenide’sin “Giritli Paradoksudur (bütün Giritliler yalancıdır önermesi).”

Mantık hatası içeren bu önermenin paradoks olarak kabul edilmesinin nedeni kendinden sonraki pek çok ‘yalan’ paradoksuna temel oluşturmasıdır.

Paradoksların matematikte tartışılmaya başlanması yaklaşık olarak 20. yy dolaylarında gerçekleşir. Genel anlamda paradokslar aşağıdaki gibi gruplanır:

  • Zeno paradoksları
  • Russell paradoksları (Küme teorileriyle ilgili)
  • Mantık paradoksları
  • Epimenides paradoksları (Yalancı paradoksları)
  • Sonsuzluk paradoksları

İstatistiksel Yanılsama

İstatistik; verileri toplar, analiz eder ve yorumlarken etiğin ön planda olması gereken bilim dalıdır. Homer Simpson’ın da dediği gibi “İstediğiniz herhangi bir şeyi kanıtlamak amacıyla istatistikten faydalanabilirsiniz.”

Yanlı seçimler, bilime değil de amaca uygun yapılan istatistiksel çıkarımlar ile farklı farklı türden bilginin taraflı tahmini mümkündür. Dolayısıyla istatistiksel etiğin ihmal edilmesi ile gerçek istatistikler yerine 3 türlü yalandan biri olan ‘yanlı’ istatistikler ortaya çıkar. Yani istatistiği kullanmak problem değildir. Problem, kullanım amacındadır.

Edward H. Simpson

Edward H. Simpson İngiliz İstatistikçi, şifre kırıcı ve kendi adıyla anılan Simpson Paradoksunun yaratıcısıdır. 10 Aralık 1922 tarihinde doğar. Akademisyen kimliğinin yanı sıra devlet memuru olarak da çalışır.

II. Dünya Savaşı sırasında Dünya’nın ilk modern bilgisayarını Alan Turing ile geliştirirken kod kırıcı olarak çalışır. Royal Statistical Society (Kraliyet İstatistik Topluluğu) üyeliğini 1946 yılından ölümüne kadar sürdürür.

Cambridge’de doktorasını yapar. Kendi adıyla anılan Simpson Paradoksunu 1951 yılında yayınladığı makalede sunar. 1947’den sonra çalışma hayatının büyük bölümünü kamu hizmetinde geçirir. Milli Eğitim Bakanlığı, Hazine Özel Konseyi Eğitim ve Bilim Bölümünde çalışır.

5 Şubat 2019 tarihinde aramızdan ayrılır.

Simpson Paradoksu

Simpson Paradoksu, Yule-Simpson etkisi olarak da adlandırılır. Çünkü Yule 1903 yılında kategorik değişkenler arasındaki birleşme paradokslarının varlığını açıklar (cinsiyetin 0 ya da 1 olarak kodlanması kategorik değişken örneğidir).

Aslında bu alandaki paradoksların varlığı ünlü İstatistikçi Karl Pearson tarafından da çalışılmıştır (1899). Spor, sağlık, eğitim, sosyal bilimler gibi pek çok alanda bu paradoksa rastlamak mümkündür.

Simpson bu paradoksu 1951 yılında yayınladığı “The Interpretation of Interaction in Contingency Tables – Acil Durum Tablolarında Etkileşim Yorumu” adlı makalede anlatır. Kabaca paradoks şöyle tanımlanabilir: “Farklı grupların ortalamalarının ortalaması, grupların birleşik haldeki ortalamasına eşit olmak zorunda değildir.”

Bu cümlede anlatılmak isteneni tarihten bir örnekle açıklayalım.

Berkeley Üniversitesi Örneği

Berkeley Üniversitesi 1973 yılında üniversiteye kabul şartlarında cinsiyet ayrımı yaptığı gerekçesiyle dava edilir. Üniversiteye kabul başvurularında toplanan istatistiksel verilere bakıldığında başvuru yapan erkeklerin %44’ü kadınların ise %35’i üniversiteye kabul edilmiştir. Üniversiteye başvuran kadın sayısı 4321 iken erkeklerin sayısı 8442’dir. Toplamda kabul edilen kadın öğrenci sayısı 1512 olurken erkek öğrenci sayısı 3714‘tür.

Rakamlar incelendiğinde cinsiyet ayrımı suçlamasının doğru olduğu sonucuna varılabilir. Oysaki durum bundan farklıdır. Veriler gruplandırılmamış yani ham verilerdir. Mahkeme tarafından veriler bölüm bölüm gruplandırılınca ortaya şöyle bir tablo çıkar:

Tabloya bakıldığında kadın öğrenciler, üniversitenin en büyük 6 bölümünün 4’ünde erkek öğrencilere göre daha fazla kabul almıştır. Yani A, B, D ve F bölümlerine kabul gören erkek sayısı kadın sayısına göre daha azdır.

Şöyle ki erkekler en fazla öğrenci kabul edilen bölüme başvuruyu daha fazla yaparken kız öğrenciler ise en az öğrenci kabul edilen bölüme daha fazla başvuru yapmıştır. Bu sebeple grup yüzdeleri ile toplam yüzdeleri birbirinden farklılık göstermektedir. Buna Simpson Paradoksu adı verilir.

Konuyu pekiştirmek için başka bir örnekle devam edelim.

Böbrek Taşı Tedavisi

Böbrek taşı tedavisi için A ve B gibi 2 farklı metot vardır. A tedavisi tüm açık cerrahi işlemleri içerirken B tedavisi küçük ya da büyük böbrek taşları ile ilgili tedavileri içerir. Aşağıdaki tabloda metotların ayrı ayrı başarı yüzdeleri ile birlikte her 2 tedavinin ortak başarı yüzdeleri de yer alır.

Küçük ve büyük taşlarda her 2 grupta da A metodunun başarı oranı yüksekken (%93 – %87) – (%73 -%69), toplam başarı oranına bakıldığında ise B metodu (%83) A metoduna (%78) göre daha iyidir. Doktorun, hastayı tedavi ederken hangi metodu seçeceğine karar vermesi aşamasında nedensellik sorunu ile Simpson Paradoksu devreye girer.

(Nedensellik sorunu korelasyon kavramı ile birlikte incelenmelidir ve bu kavramın açıklanması yazının dışına bırakılmıştır.)

Simpson Paradoksu örneklerle anlatılabilir. Fakat ne zaman ortaya çıkacağını kestirmek güçtür. Rasgeleliğin olduğu deneysel randomize çalışmalarda paradoksun ortaya çıkışı, diğer deneysel olmayan ve rasgelelik içermeyen çalışmalara göre daha zordur.

(Randomize rasgele seçim demektir.)

Özellikle tıp alanındaki çalışmalar başta olmak üzere istatistiksel çıkarımları etkileyecek paradokslardan kaçınmak için randomizasyon önemliyken, Simpson Paradoksu örneklerinde olduğu gibi günlük yaşantımızda karşımıza çıkan paradoksların çözüm kabiliyetini kazanmak içinse algılarımızı genişletmemiz gerekir. 

Olgun Duran

Matematiksel

Olgun Duran

Ömür boyu öğrencilik felsefesini benimsemiş amatör tiyatro oyuncusu, TEGV'de gönüllü aktivist; kitaplarından, doğaya hayranlığından, yeni yerleri görmekten, gittiği yerlerin kültürünü keşfetmekten ve bunların uğruna çabalamaktan vazgeç(e)meyen kişi...  

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu