Matematik Öğrenelim

İstatistik Nedir? Beklenen Değer, Varyans ve Standart Sapma Ne Anlama Gelir?

“İstatistikçi olmanın en iyi yanı, herkesin arka bahçesinde oynayabilmenizdir.” - John TUKEY

Yaşadığımız çağın merkezini veriler oluşturur. Bir parçası olduğumuz evreni anlamak ya da öğrenmek istediğimiz şeyler hakkında bilgi almak için veri toplarız. Topladığımız bu verileri anlamlandırma işini ise bilim dalı olarak istatistik yapar. İstatistik nedir? sorusuna verilecek kısa cevap, “verilerin toplanması, analizi, yorumlanması ve sunumu ile ilgili bir matematik bilimidir.” biçiminde olacaktır.

İstatistik İçin Veri Nedir?

Edmond Halley (İngiliz gökbilimci ve matematikçi, 1656 – 1742)

1682, 1759, 1835, 1910, 1986, 2061, 2136, 2211, 2286

Yukarıdaki sayılar bir veri midir? Bir değere veri denebilmesi için o değerin belli bir bilgi vermesi gerekir. Aslına bakarsanız bu sayı dizisi Edmond Halley tarafından 1682 yılında gözlemlenen  ve yaptığı hesaplamalarla 76 yılda bir yeniden dünyadan geçeceğini söylediği Halley kuyruklu yıldızının gözlem ya da gözlemleneceği düşünülen tarihleridir.

Dolayısıyla bizim için artık sıradan rakamlar değil bir veriyi oluşturur. Kısaca veri için bir ya da birden fazla bilgiyi temsil eder diyebiliriz.

İstatistik Bölümleri Nelerdir?

İstatistik teorik ve uygulamalı istatistik diye iki bölümden oluşur. Teorik istatistik matematiği temel alarak istatistiğin teorisinin gelişimini ve uygulamalı istatistiğe yeni yöntemler sunma işini üstlenir. İstatistiksel yöntemler geliştirirken ve yöntemlerin altında yatan teoriyi incelerken istatistikçiler çeşitli matematiksel h.esaplama araçlarını kullanırlar.

istatistik, ekonomi

Uygulamalı istatistik ise hem betimsel hem çıkarımsal istatistikler yardımıyla analizleri gerçekleştirip sonuçlayan ve raporlayan alandır. İstatistik genel olarak dört adımda gerçekleşir.

  • Soruları Belirlemek: Doğru sorular sorarak analizin ilk aşaması yapılır. Varsayımların (hipotezler) sınanabilmesi için sorulara doğru bir şekilde karar vermek önemlidir.
  • Verileri Toplamak: Varsayımların yanıtlanabilmesi için en uygun istatistiksel yöntemlerle gerekli verileri toplama işidir.
  • Düzenleme ve Özetleme: Toplanan verileri analize uygun hale getirip betimsel istatistik yöntemleriyle (grafikler, sınıflama tabloları, sıklık dağılımları, ortalama, medyan, çeyreklikler vs. hesaplama) düzenlemedir.
  • Sonuç Çıkarma: Diğer maddelerin yardımıyla analizi gerçekleştirip yorumlama ve raporlama işlemidir.

Bu dört maddenin bileşimi sonucunda sorular bazen cevapsız kalır. Bu durumda yeniden soru üretip aynı döngüyü kullanmak gerekir.

İstatistik -diğer bilim dallarında olduğu gibi- etiğin özellikle ön planda tutulması gereken bir alandır. Verileri manipüle etmek veya gizlemek, sayıların gerçekte ne sunduğunu değil, sadece araştırmacının ne istediğini yansıtmak ve böylece ünlü “Yalanlar, kuyruklu yalanlar ve istatistikler” ifadesini doğurmak basittir.

Temel İstatistik Kavramları Nelerdir?

istatistik nedir

İstatistik bilimiyle bir şekilde karşılaşanlar; bu alanın oldukça sinir bozucu olduğunu söylerler. Ana sorun, istatistik öğretiminin en temel kavramdan başlanarak yapılmaması ve anlaşılmayan kavramlar üzerinden istatistik dersinin inşa edilmesidir.

Çünkü istatistik her yerde ve her şeyde karşımıza çıkmaktadır; yani dünyada gerçek bir şeyleri ararken istatistikle yol almaktayız. Bu yazıda temel istatistik kavramlarından başlayarak adım adım yol alalım.

Örnek Uzay: Yapılan deneylerin ya da gözlemlerin mümkün olan sonuçlarına verilen addır. Eğer örnek uzay, sonlu sayıda elemandan oluşursa “sonlu örnek uzayı”, sonsuz sayıda elemandan oluşan bir kümeyse “sonsuz örnek uzayı” adını alır. Bir örnek uzayın her bir alt kümesi ise bir olaydır.

Bir elemanlı kümeye basit olay, birden fazla elemandan oluşan kümeyse “bileşik olay” denir. Bir deney aynı koşullar altında birçok kez tekrar edildiği halde sonuçlar bir kurala bağlı olmadan her defasında farklı çıkıyorsa bu olaya “rasgele olay” denir.

Deneme sayısı, bir olayın ne kadar gerçekleştiğinin sayısıdır. Bir olayın gerçekleşme sıklığının deneme sayısına bölümü ise hepimizin bildiği olasılık olarak tanımlanır. Örnek olarak; bir olay bir zar 100 kez atıldığında 17 kere 4 gelmesi olarak tanımlansın. Bu durumda başarı olasılığı p= 17/100 olacaktır.

Bu durumun tam tersi ise “başarısızlık olasılığı (q)” olur. Olasılık 1’den büyük olamayacağı için  p + q = 1 biçimindedir. Buraya kadar bahsettiğimiz istatistik kavramları aslında olasılık konusunda okullarda aktarılanlar ile oldukça benzerlik gösteriyordu. Şimdi bir adım öteye gidelim.

Beklenen Değer Nedir?

Olasılık teorisinde beklenen değer, bir şeyin olası sonuçlarının olasılığını yansıtan bir ortalamadır. Hilesiz bir zar attığınız zaman 1’den 6’ya kadar her sayının gelme olasılığı aynıdır. Bu, zarları birçok kez atarsanız, tüm atışların yaklaşık 1/6’sında 1’i; 1/6’sında 2’yi, 1/6’sında 3’ü görmeniz gerektiği anlamına gelir.

Yani zarı n kez atarsanız, her bir sonuç kabaca n/6 kez gerçekleşir. Güçlü büyük sayılar yasası, sayı büyüdükçe gerçek ortalamanın 3.5’e yaklaştığını söyler. 3.5 sayısı, bir anlamda, zarı sonsuz sayıda atmış olsaydınız elde edeceğiniz ortalamadır. Bunu aşağıdaki hesaplama ile elde edebiliriz.

Aynı fikir daha genel olarak şu biçimde olur. Zarınızın adil olmadığını varsayalım, bu nedenle altı sayının hepsinin aynı gelme olasılığı yoktur. 1’in olasılığının p1, 2’nin olasılığının p2 olduğunu ve bu şekilde devam ettiğini varsayalım. Çok sayıda zar atışının ortalama sonucu bu durumda kabaca aşağıdaki gibi olacaktır.

Bu durumda artık beklenen değer tanımını yapabiliriz. Rastgele bir değişkenin X1 ila Xm arasında m olası sonucu varsa ve karşılık gelen olasılıklar p1 ila pm ise, sonucun beklenen değeri aşağıdaki formül ile hesaplanır.

Varyans Nedir?

Bir sayı listesiyle karşılaştığımızda, bu sayıların ne kadar büyük veya küçük olduğu hakkında kabaca bir fikir edinmek için genellikle ortalamasına bakarız. Ancak ortalama bize bir çok şey hakkında yeterince fikir vermez.

Örnek olarak, beş arkadaşınıza yıllık maaşlarını sorduğunuzu ve cevapları aldığınızı düşünün. Bu maaşlar 20000, 20000, 20000, 20000 ve 100000 olsun. Bu maaşların ortalamasını alırsanız yani hepsini toplayıp 5 ile bölerseniz 36000 sonucunu elde ederseniz. Ancak bu sayı fazla anlamlı değildir.

Sonuçta grubun çoğunluğunun maaşını temsil etmemektedir. Bu durumda varyansa bakmanız gereklidir. Varyansı hesaplarken öncelikle her maaşı ortalamadan çıkartıp, sonucun karesini almalıyız. Kare almamızın nedeni negatif bir sonuç elde etme ihtimalini ortadan kaldırmaktır. Bu durumda yukarıdaki örneğimizin varyansı aşağıdaki gibi olacaktır.

Bu çok büyük bir sayıdır. Bu da bize beş sayımızın hepsinin ortalamadan oldukça uzakta olduğunu gösterir. Yani diğer bir değişle veri setimiz çok dağınıktır. Eğer son arkadaşımız 100.000 yerine 20001 lira kazanmış olsaydı, varyans hesabının sonucunda 0,16 elde ederdik. Bu küçük bir sayıdır ve bu sayı kümesinin fazla dağılmadığını gösterir.

Burada aynı ortalamaya (100) ve farklı varyanslara sahip iki popülasyon görüyorsunuz. Yata eksen maaşları, dikey eksen ise kaç kişinin bu maaşı aldığını gösteriyor. Kırmızı eğri daha küçük bir varyansa sahip olur. Bunun nedeni bir çok kişinin birbirine yakın maaş almasıdır.

Standart Sapma Nedir?

Bu tanım, belirli bir sayı listesi için işe yarar, ancak aynı zamanda, zar atmak gibi rastgele bir süreçle uğraşırken işe yarayan bir varyans tanımı da vardır. Rastgele işleminizin x1, x2 vb. olarak etiketlediğimiz n sonucu olduğunu varsayalım.

Bir zar atıyorsanız, n=6 ve x1=1, x2=2, … ,x6=6. olur. Ayrıca, her sonucun p1, p2, biçiminde olasılıklarını da bildiğinizi varsayalım. Adil bir zar durumunda, her bir olasılık 1/6 olur, ancak bu genel anlamda geçerli değildir. Beklenen değeri yukarıda aktardığımız biçimde hesapladığımızı düşünelim. Bu durumda varyans aşağıdaki formül ile hesaplanır.

Bir popülasyonun varyansı, rastgele işlemi çok sayıda tekrarlarsanız sonuçların ne kadar yayılmış olabileceği konusunda size bir fikir verir.  Varyansın pozitif kareköküne standart sapma denir. 

İsveçli matematikçi ve yazar Charles Wheelan’ın da dediği gibi “istatistikleri kullanarak yalan söylemek kolaydır ama onlar olmaksızın gerçeği söylemek zordur.” Bu nedenle konu ile ilgili öğrenmeye devam edelim. 6 Sigma Nedir? Standart Sapma İle Ne İlgisi Vardır?


Kaynaklar ve İleri okumalar

Matematiksel

Olgun Duran

Ömür boyu öğrencilik felsefesini benimsemiş amatör tiyatro oyuncusu ve TEGV gönüllüsü; kitaplarından, doğaya hayranlığından, yeni yerleri görmekten, gittiği yerlerin kültürünü keşfetmekten ve bunların uğruna çabalamaktan vazgeç(e)meyen kişi...  

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu