Temel Matematik

Temel İstatistik Kavramları: Beklenen Değer, Varyans ve Standart Sapma

“İstatistikçi olmanın en iyi yanı, herkesin arka bahçesinde oynayabilmenizdir.” - John TUKEY

İstatistik bilimiyle bir şekilde karşılaşanlar; bu alanın oldukça sinir bozucu olduğunu, konularının sanki uzaydan inmişçesine karışık geldiğini (nitekim pek de haksız sayılmazlar örnek uzaylar bizim işimiz) ve hiçbir şey anlamadıklarını söylerler. Ana sorun, istatistik öğretiminin en temel kavramdan başlanarak yapılmaması ve anlaşılmayan kavramlar üzerinden istatistik dersinin inşa edilmesidir. İstatistik literatüründe yer alan ve evrensel bir istatistik dili oluşturan bu kavramların ne olduğu iyi anlaşılırsa, işin keyifli bir yanını görme ihtimaliniz de artacaktır. Çünkü istatistik her yerde ve her şeyde karşımıza çıkmaktadır; yani dünyada gerçek bir şeyleri ararken istatistikle yol almaktayız. Bu yazıda temel istatistik kavramlarından başlayarak adım adım yol alalım.

Temel İstatistik Kavramları

Örnek Uzay: Yapılan deneylerin ya da gözlemlerin mümkün olan sonuçlarına verilen addır. Eğer örnek uzay, sonlu sayıda elemandan oluşursa “sonlu örnek uzayı”, sonsuz sayıda elemandan oluşan bir kümeyse “sonsuz örnek uzayı” adını alır. Bir örnek uzayın her bir alt kümesi ise bir olaydır. Bir elemanlı kümeye basit olay, birden fazla elemandan oluşan kümeyse “bileşik olay” denir. Bir deney aynı koşullar altında birçok kez tekrar edildiği halde sonuçlar bir kurala bağlı olmadan her defasında farklı çıkıyorsa bu olaya “rasgele olay” denir.

Deneme sayısı, bir olayın ne kadar gerçekleştiğinin sayısıdır. Bir olayın gerçekleşme sıklığının deneme sayısına bölümü ise hepimizin bildiği olasılık olarak tanımlanır. Örnek olarak; bir olay bir zar 100 kez atıldığında 17 kere 4 gelmesi olarak tanımlansın. Bu durumda başarı olasılığı p= 17/100 olacaktır. Bu durumun tam tersi ise “başarısızlık olasılığı (q)” olur. Olasılık 1’den büyük olamayacağı için  p + q = 1 biçimindedir. Buraya kadar bahsettiğimiz istatistik kavramları aslında olasılık konusunda okullarda aktarılanlar ile oldukça benzerlik gösteriyordu. Şimdi bir adım öteye gidelim.

Beklenen Değer Nedir?

Olasılık teorisinde beklenen değer, bir şeyin olası sonuçlarının olasılığını yansıtan bir ortalamadır. Hilesiz bir zar attığınız zaman 1’den 6’ya kadar her sayının gelme olasılığı aynıdır. Bu, zarları birçok kez atarsanız, tüm atışların yaklaşık 1/6’sında 1’i; 1/6’sında 2’yi, 1/6’sında 3’ü görmeniz gerektiği anlamına gelir. Yani zarı n kez atarsanız, her bir sonuç kabaca n/6 kez gerçekleşir. Güçlü büyük sayılar yasası, sayı büyüdükçe gerçek ortalamanın 3.5’e yaklaştığını söyler. 3.5 sayısı, bir anlamda, zarı sonsuz sayıda atmış olsaydınız elde edeceğiniz ortalamadır. Bunu aşağıdaki hesaplama ile elde edebiliriz.

Aynı fikir daha genel olarak şu biçimde olur. Zarınızın adil olmadığını varsayalım, bu nedenle altı sayının hepsinin aynı gelme olasılığı yoktur. 1’in olasılığının p1, 2’nin olasılığının p2 olduğunu ve bu şekilde devam ettiğini varsayalım. Çok sayıda zar atışının ortalama sonucu bu durumda kabaca aşağıdaki gibi olacaktır.

Bu durumda artık beklenen değer tanımını yapabiliriz. Rastgele bir değişkenin X1 ila Xm arasında m olası sonucu varsa ve karşılık gelen olasılıklar p1 ila pm ise, sonucun beklenen değeri aşağıdaki formül ile hesaplanır.

Varyans Nedir?

Bir sayı listesiyle karşılaştığımızda, bu sayıların ne kadar büyük veya küçük olduğu hakkında kabaca bir fikir edinmek için genellikle ortalamasına bakarız. Ancak ortalama bize bir çok şey hakkında yeterince fikir vermez. Örnek olarak, beş arkadaşınıza yıllık maaşlarını sorduğunuzu ve cevapları aldığınızı düşünün. Bu maaşlar 20000, 20000, 20000, 20000 ve 100000 olsun. Bu maaşların ortalamasını alırsanız yani hepsini toplayıp 5 ile bölerseniz 36000 sonucunu elde ederseniz. Ancak bu sayı fazla anlamlı değildir. Sonuçta grubun çoğunluğunun maaşını temsil etmemektedir. Bu durumda varyansa bakmanız gereklidir. Varyansı hesaplarken öncelikle her maaşı ortalamadan çıkartıp, sonucun karesini almalıyız. Kare almamızın nedeni negatif bir sonuç elde etme ihtimalini ortadan kaldırmaktır. Bu durumda yukarıdaki örneğimizin varyansı aşağıdaki gibi olacaktır.

Bu çok büyük bir sayıdır. Bu da bize beş sayımızın hepsinin ortalamadan oldukça uzakta olduğunu gösterir. Yani diğer bir değişle veri setimiz çok dağınıktır. Eğer son arkadaşımız 100.000 yerine 20001 lira kazanmış olsaydı, varyans hesabının sonucunda 0,16 elde ederdik. Bu küçük bir sayıdır ve bu sayı kümesinin fazla dağılmadığını gösterir.

Burada aynı ortalamaya (100) ve farklı varyanslara sahip iki popülasyon görüyorsunuz. Yata eksen maaşları, dikey eksen ise kaç kişinin bu maaşı aldığını gösteriyor. Kırmızı eğri daha küçük bir varyansa sahip olur. Bunun nedeni bir çok kişinin birbirine yakın maaş almasıdır.

Bu tanım, belirli bir sayı listesi için işe yarar, ancak aynı zamanda, zar atmak gibi rastgele bir süreçle uğraşırken işe yarayan bir varyans tanımı da vardır. Rastgele işleminizin x1, x2 vb. olarak etiketlediğimiz n sonucu olduğunu varsayalım. Bir zar atıyorsanız, n=6 ve x1=1, x2=2, … ,x6=6. olur. Ayrıca, her sonucun p1, p2, biçiminde olasılıklarını da bildiğinizi varsayalım. Adil bir zar durumunda, her bir olasılık 1/6 olur, ancak bu genel anlamda geçerli değildir. Beklenen değeri yukarıda aktardığımız biçimde hesapladığımızı düşünelim. Bu durumda varyans aşağıdaki formül ile hesaplanır.

Bir popülasyonun varyansı, rastgele işlemi çok sayıda tekrarlarsanız sonuçların ne kadar yayılmış olabileceği konusunda size bir fikir verir.  Varyansın pozitif kareköküne standart sapma denir. 


Kaynaklar ve İleri okumalar

Matematiksel

Başa dön tuşu