İstatistik Bilgilerini Yanlış Yorumlamanın 7 Büyük Günahı ve Bunlardan Kaçınma Yolları

İstatistik bilimi; verilerin toplanmasına, düzenlenmesine, analiz edilmesine, modellenmesine ve yorumlanarak raporlanmasına olanak tanıyan, hayatla iç içe geçmiş bir alandır. İstatistiğin birincil amacı, tüm yığın –kitle adını veriyoruz- üzerinden elde edilen kısıtlı sayıda örneklemler aracılığıyla hipotez testleri kurarak, kitle parametreleri üzerine sonuç çıkarmak ve kitle hakkında yorum yapmaktır.

Zaten istatistiğin ana sorunu da bu cümlede yatar! Büyük sayıda kitleden seçilen kısıtlı sayıda örneklem ve üzerine yapılan çıkarsamalar…İşte bu nedenledir ki, istatistik okuryazarlığı oldukça önem arz eder!

Biz, istatistikler yalan söylüyor diyoruz; ama istatistikler yalan söylemez ki! Elbette istatistik bilimi, matematik gibi kesin sonuçlu yorumları doğası gereği sevemez. Ama bu demek değil ki yalan söyler. Çünkü istatistiksel yöntembilim, tüm hesaplamalarını matematiğe dayandırır ve aslında istatistik matematikten doğan enfes bir alandır.

Yazının devamına geçmeden önce bir anekdot paylaşalım. 2 kere 2 kaç eder sorusuna verilen yanıtların aşağıdaki gibi olduğu esprisi etrafta dolaşır:

Normal birey: 4

Matematikçi: (Uzunca düşünüp karar verdikten sonra) 4

İstatistikçi: %95 olasılıkla 3,75 ile 4,25 arasında çıkar. :) Bu cevap aslında istatistiğin kısa bir özeti gibidir.

Peki, biz istatistikleri kullanarak nasıl yalan söylüyoruz? Başka bir deyişle insanlar, nasıl matematikten doğma bir bilim dalına yalan söyletiyor? İstatistikteki büyük –pek çok uygulayıcısı tarafından muhtemelen de bilerek yapılan- hatalar nelerdir? İşte bunlardan bazıları, yazımızın konusunu oluşturdu. Yazının devamında, maddeler halinde bu hataları ve bunlardan kaçınma yollarını okuyacaksınız.

Dikkat Etmeniz Gereken İstatistik Hataları

istatistik hataları

1. Ortalamalar Arasındaki Küçük Farklılıkların Önemli Olduğunu Varsaymak

Diyelim ki elimizde iki tane karşılaştırmak istediğimiz grubumuz olsun: kadın ve erkeğin gram cinsinden günlük ekmek tüketim miktarı. Sorumuzu 100 kişiye sorduğumuzu ve cevapları topladığımızı düşünelim. Tüketim miktarının ortalaması kadınlar için 152 gr. erkekler içinse 150 gr. bulunsun.

Bu iki grubu kıyaslamak için yapılan hipotez testi sonucunda anlamlı farklılık gözlemlensin. Bu durumda yapacağımız yorum, kadınların erkeklerden daha fazla ekmek tükettiği olacaktır. Evet, bu sonuç böyle çıkabilir; ama bir istatistikçi olarak olmaması gerektiğini söylüyorum. Neden mi? 

Çünkü olmama sebebine baktığımızda, istatistiksel olarak çok güçlü bir yaklaşımımız var: kadın ve erkek açısından ortalama değerler birbirlerine matematiksel olarak oldukça yakın. Ortalamalar arasında farklılık bu kadar küçükken, analiz sonucu anlamlı farklılık çıkmasının sebebi, veri kümesine müdahil olan dış koşulların niteliğinin göz ardı edilmesidir.

Böylesi küçük farklılıkların anlamlı çıkması, bizi başka bir önemli değerin incelenmesine yönlendirmeli. İstatistiksel ifadeyle, ortalamanın standart sapmasının (varyansın karekökü olup gözlemlerin ortalama civarındaki uzaklığının ölçüsünü verir) büyüklük değerinin kontrol edilmesini düşünmemiz önemlidir. Eğer ortalamanın standart sapma değeri oldukça büyükse, toplanan veri kümesini yeniden incelemeniz ve sonuçlarınızı gözden geçirmeniz gerekir.

istatistik hataları

2. İstatistiksel Önemi Gerçek Dünya Önemi İle İlişkilendirmek

Yukarıdaki ekmek tüketim örneğine dönersek, bu istatistiksel gürültüyü önlemenin yolu “istatistiksel etki büyüklüğünü” hesaplamak olacaktır. Etki büyüklüğü (effect size), uygulama anlamlılığı olarak basitçe tanımlanabilir. İstatistiksel olarak ise etki büyüklüğü değeri, bir grubun ortalamasının diğerinin ortalamasından ne kadar farklı olduğunun ölçüsünü verir.

Bu kavram önemlidir. Kabaca ifade edersek istatistiksel veri analizi, bir Excel dosyasında satır sayısının sütun sayısından fazla olmasını talep etmeyi sever. Örneğimizdeki gibi ortalamalar arasında fark bulunan veri kümelerinde, analiz sonucu istatistiksel anlamlı farklılığın çıkmasına şüpheyle yaklaşmak gerektiğini bir önceki maddede açıkladım. Dolayısıyla etki büyüklüğü gözlem sayısıyla ilişkili olmadığından analizlerde hesaplanmalı ve analizin uygulama anlamlılığı gösterilmelidir.

3. Veri Kümesinde Aykırı Değer (Uç Değer) Analizi Yapmamak

Aykırı değer analizi, istatistiksel araştırmalarda oldukça önemli yer tutar. Kısaca ortalama dediğimiz aritmetik ortalama (beklenen değer), elimizdeki gözlemlerin tümünün toplanıp gözlem sayısına bölünmesiyle elde edildiğinden, verilerin büyüklük/küçüklük miktarlarına karşı aşırı duyarlıdır.

Bundan dolayı gözlemlerin değerinden oldukça küçük ya da büyük değer/ler (ortalamadan 3 ya da 4 standart sapma uzakta olan/lar) istatistikte aykırı değer olarak adlandırılmaktadır. Peki, aykırı değerler neden bu kadar önemli?

Çünkü bir aykırı değer, ortalamanın değerini kendi değerine doğru çekeceğinden, veri kümesinde baskın bir değer olacaktır. Dolayısıyla biz istatistikçiler, baskın değerleri, baskın oldukları için incelemeye tabi tutarız.

istatistik hataları

Hemen basit bir örnekle anlatayım. Elimizde (4, 5, 6, 7, 8) değerli olan 5 tane gözlemimiz olsun. Bu 5 gözlemin ortalaması 30/5 = 6’ dır. Şimdi de 8 değerine sahip gözlem yerine 38 değerini yazalım. Bu durumda ortalamamız 60/5 = 12 olacaktır.

Gördüğünüz gibi veri kümesinin ortalaması tam 2 katına çıktı. İşte bu 2 katı fark, istatistiksel hipotez testlerini de etkileyecektir. Ve küçük farklılıklar istatistiksel analiz sonucunu, anlamlı ya da anlamsız çıkması yönünde etki edecektir. Bu konuyu ileriki zamanda ayrıntılı ele almak istiyor, burada noktalıyorum.

4. Tesadüfi İlişkilere Anlam Atfetmek

Elbette istatistik rassal değişkenler ve olaylarla doğası gereği ilgilenmektedir. Olasılık hesaplamaları en sevdiğimiz şeylerden biri. :) Ama bu demek değil ki, bir kavşaktan geçen araba sayısı ile bir ağaçtan düşen yaprak sayısı arasında ya da ABD’de kişi başına düşen mozeralla peyniri tüketim miktarı ile doktoralı inşaat mühendisi arasındaki ilişki var ise gerçekçidir.

Sahte korelasyonlar (ilişki) istatistik okuryazarlığı açısından başlı başına öğrenilmesi gereken bir konu. İki konunun aynı anda ve benzer kalıplarda değiştiğini görmeniz, bunların birbiriyle ilişkili olduğunu düşünmeniz anlamına gelmemelidir. İlişkilendirilen değişkenlerin ne kadar güvenilir olduğunu sorgulamanız oldukça önemlidir.

5. Ters Nedensellik İlişkisi

İki konu ilişkili olduğunda – örneğin işsizlik ve ruh sağlığı sorunları gibi– ‘bariz’ bir nedensellik görmek bize cazip gelecektir. Diyelim ki hipotezimiz, akıl sağlığı sorunlarının işsizliğe yol açtığı olarak kurulsun. Ancak bazen bu nedensellik, işsizliğin zihinsel sağlık sorunlarına yol açması gibi diğer yönde de değerlendirilmesini gerektirecektir.

Bir ilişki gördüğünüzde, ters nedensellik hakkında düşünmeyi hatırlayarak bu hatayı önleyebilirsiniz. Etki diğer yöne gidebilir mi? Yoksa bir geri besleme döngüsü oluşturarak her iki yöne de gidebilir mi? Bunu sorgulamanız önemli olacaktır.

6. Dış Nedenleri Göz Önünde Bulundurmayı Unutmak

İnsanlar genellikle olası ‘üçüncü faktörleri’ veya iki konu arasında bir ilişki oluşturabilecek dış nedenleri değerlendirme şansına sahip olamayabilirler. Bazen her iki konunun aslında üçüncü faktörün sonuçları olduğunu fark edemezler.

Örneğin, restoranlarda yemek yeme ile daha iyi kardiyovasküler sağlık arasında bir ilişki bulunduğu iddia edilsin. Bu ikisi arasında nedensel bir bağlantı olduğuna inanmanız beklensin. Ancak, düzenli olarak restoranlarda yemek yemeye gücü yetenlerin, sosyo-ekonomik düzeyleri yüksektir.

Dolayısıyla daha iyi sağlık hizmetini daha iyi sağlık merkezlerinden alabilirler, daha düzenli sağlık taramaları geçirirler ve bu yüzden şanslı gruptalardır.  Fakat araştırmacı, sizin bu olası üçüncü faktörleri göz ardı etmenizi bekleyebilecektir.

Bu sebepledir ki, bir korelasyon gördüğünüzde üçüncü faktörleri düşünmeyi hatırlayarak bu hataya düşmeyi önleyebilirsiniz. Gerçekleşmesi mümkün bir sebep olarak bir olayı takip ediyorsanız, kendinize o olaya neyin sebep olduğunu sormanız “Böylesi üçüncü faktörler, ilişkinin gücü ve şiddetini ne yönde etkiler?” sorusunu incelemenize olanak sağlayacaktır.

7. Aldatıcı Grafikler  – Ölçeklendirme

Oluşturulan grafiklerde dikey eksenin ölçeklendirilmesinde ve etiketlenmesinde bilinçli ya da bilinçsiz deyim yerindeyse çok fazla sahtelik meydana geliyor. Bu yüzden grafik etiketleri, baktığınız konunun tam anlamlı aralığını göstermelidir.

Hatta bazen grafik oluşturucu, küçük bir fark olduğunu vurgulamak ve ilişkilendirmeyi daha etkili göstermek için daha dar bir aralık seçmeye yönelebilir. Şöyle ki, yukarıda gördüğünüz sol tarafta yer alan grafik, 0’dan 100’e kadar ölçeklenince, iki sütun aynı yükseklikte görünmüş. Fakat aynı verileri yalnızca 52,5’dan 56,5’e kadar gösterirseniz, büyük ölçüde farklı görüneceklerdir.

Eksenler boyunca grafiğin etiketlerini not etmeye özen göstererek, bu hatayı önleyebilirsiniz. Özellikle etiketlenmemiş grafiklere karşı şüpheci olmak, böylesi bir hatadan kaçınmanıza yardımcı olacaktır.

Sözün özü, istatistikler yalan söylemez, söyletmek için uğraş verilir! Gerçekler acı da olsa bilinmeyi hak eder ve er ya da geç karşımıza çıkar.



Kaynakça: “Meet The 7 Deadly Sins of Statistical Misinterpretation – And How to Avoid Them” adlı yazının temelinde şekillendirilmiştir.

Matematiksel

Olgun Duran

Ömür boyu öğrencilik felsefesini benimsemiş amatör tiyatro oyuncusu ve TEGV gönüllüsü; kitaplarından, doğaya hayranlığından, yeni yerleri görmekten, gittiği yerlerin kültürünü keşfetmekten ve bunların uğruna çabalamaktan vazgeç(e)meyen kişi...  
Başa dön tuşu