Olasılık ve İstatistik

Örneklerle Bazı Sürekli Olasılık Dağılımları

Önceki yazılarımda olasılık dağılımlarının daha iyi anlaşılabilmesi için bazı temel istatistik kavramları üzerine bilgi vermiştim ve kesikli olasılık dağılımlarını tanıtmıştım. Aşağıdaki yazıyı okumaya geçmeden önce bu iki yazıya da göz atmanızı öneririm. İstatistik Biliminde Kullanılan Bazı Temel Kavramlar ve Bazı Kesikli Olasılık Dağılımları.

Sürekli Rasgele Değişken Nedir?

Bir zar atılma deneyinde gelebilecek mümkün sonuçların kümesinin Szar = {1,2,3,4,5,6} olduğunu biliyoruz. Szar kümesine baktığımızda kümenin elemanlarının tam sayılardan oluştuğu görülür. Peki, hayatta her olayın mümkün olan sonuçlarını matematiksel olarak incelememiz gerekseydi, çıkabilecek olası sonuçların tam sayılar kümesinin elemanları olabileceğini iddia edebilir miydik? Elbette hayır!

İşte bir olayın mümkün sonuçlarının oluşturduğu kümenin elemanı, sürekli bir aralıkta değer alıyorsa bu rasgele değişkene “sürekli rasgele değişken” adı verilmekte. Sürekli rassal değişkenin alabildiği değerler sayılamaz; yani gerçel sayılar eksenindeki her değeri alabilir. Bu rassal değişkenin herhangi bir tam sayı değerini alma olasılığı 0 olduğundan alabileceği değerleri belli aralıklarla ifade ederiz. Rasgele değişkenleri genellikle “X” harfi ile sembolize edilir. Şöyle ki, 5 kişilik bir öğrenci topluluğunun boyları ölçülsün.

Sx = {1.52, 1.63, 1.49, 1.71, 1.64} kümesi görüldüğü üzere tam sayılardan değil; belli bir aralıkta değer alan sayılardan oluşmaktadır. Dolayısıyla bu kümenin elemanları sürekli rasgele değişkeni ifade eder.

Sürekli Rasgele Değişkenin Olasılık Fonksiyonu

Aşağıdaki 2 koşulu sağlayan rasgele değişkenin olasılık fonksiyonu; sürekli rasgele değişkenin olasılık fonksiyonu olarak adlandırılır: f(x) ≥ 0

Olasılığın 0’dan küçük değerler alamayacağını biliyoruz; ilk madde bunu ifade etmekte. İkinci madde ise tüm örnek uzayın olasılığının 1’e eşit olacağını söyler. Zaten olasılık değerleri de 1’den büyük olamaz. Sürekli olasılık dağılımların fonksiyon hesapları integral hesabıyla yapılır. Tıpkı kesikli rasgele değişkenlerde de olduğu gibi, sürekli rasgele değişkenlerin de oluşturduğu dağılımlar “sürekli olasılık dağılımları” olarak adlandırılır ve istatistik biliminde bu dağılımların önemi oldukça büyüktür.

Bazı Sürekli Olasılık Dağılımları

Sürekli olasılık dağılımlarının tablo değerleriyle ilintisini anlatmak, konuyu çok uzun bir hale getireceğinden –ki bu tablo değerleri konusu örneklerle anlatılmalı- yazmaktan kaçındım. Amacım sadece bu dağılımlar hakkında kısaca bilgi vermektir. Çünkü her bir dağılımın istatistikte yeri oldukça önemli ve anlatmak sayfalar sürer.

Sürekli Düzgün Dağılım

Eğer X rasgele değişkeninin tanım aralığındaki her bir değeri alma olasılığı birbirine eşitse; bu X rasgele değişkeninin dağılımına “sürekli düzgün dağılım” adı verilmekte. α ve β sabitler ve β > α ise dağılımın olasılık yoğunluk fonksiyonu;

olarak yazılır. Dağılımın, 16. yüzyılda İtalyan Matematikçi ve Fizikçi Gerolamo Cardano (1501 – 1576) tarafından yazılan “Liber de Ludo Aleae” adlı eserde eş olasılık hesapları temelinde oluşturulduğu bilinmektedir.

Beklenen Değeri ve Varyansı

Beklenen Değeri “E(x)” varyansı “Var(x)” ile gösterildiğini daha önceki yazımda belirtmiştim. Dağılımın beklenen değeri ve varyansı aşağıdaki formüller yardımıyla hesaplanır: E(x) = (β + α)/2; Var(x) = (β – α)2/2

Bu dağılım; özellikle teorik istatistik alanında ve matematikte topolojide (Borel Cebiri vs.) önem arz eder. Birçok algoritma (Monte Carlo Algoritması gibi) rasgele örnek oluşturmak için bu dağılımdan örnekler kullanır. Fiziksel kaynaklı deneylerde, ekonomide arz-talep işlemleri gibi alanlarda dağılımın kullanıldığı bilinmektedir.

Normal (Gauss-Laplace Dağılımı)

Olasılık dağılımları arasında başköşeye koyulması gereken dağılıma hoş geldik. Bu dağılımdan ilk olarak Fransız Matematikçi Abraham de Moivre (1667 – 1754) “Şans Doktrini – ”The Doctrin of the Changes” adlı çalışmasının 1756 yılında güncellemiş olduğu baskısında söz etmiştir. Şöyle ki “binom dağılımına normal yaklaşımı” kanıtlayarak ilk kez normal dağılımın eğrisini bulmuş ve bu yaklaşımla normal dağılımın olasılık fonksiyonunun ilk integral hesabının temelini oluşturmuştur. Okuma Önerisi: De Moivre: Ölüm Tarihini Hesaplayan Bilim İnsanı

1774’te Laplace (Fransız Matematikçi ve Gökbilimci, 1749 – 1827) bu hesabın üzerine çalışmış; fakat son şekli 19. yüzyılın ilk yarısında Alman Matematikçi ve İstatistikçi Carl Friedrich Gauss tarafından verilmiştir. Normal adını ise doğada karşımıza çıkan olası sonuçları sunduğu için almıştır. Ama son zamanlarda İstatistikçiler bu dağılımdan karışıklık olmasın diye Laplace-Gauss dağılımı olarak ifade etmeye başlamışlardır.

Pek çok kesikli ya da sürekli olasılık dağılımları, belirli istatistiksel ve matematiksel temelli işlemler sonrası normal dağılıma dönüştürülebilmektedir (Binom ya da Poisson Dağılımına Normal yaklaşım gibi). Dolayısıyla normal dağılımın kullanım alanı oldukça geniştir. Hayat kurtaran bu dağılımın şekli çandır ve hatta öğrenciler arasında sınavdan geçmenin yolunun çan eğrisinin şekline benzemesi sebebiyle çok sevilir. Çan eğrisi şekli bize dağılımın simetrik bir yapıda olduğunu da göstermekte. Gelelim normal dağılımın özelliklerine:

  • Tek tepeli, çan şeklinde ve ortalaması (μ) etrafında simetrik yapılıdır. Dolayısıyla ortalaması, ortancası (medyanı) ve tepe değeri birbirine eşittir.
  • Gözlemlerin %50’si ortalamanın solunda (yani ortalamadan küçük); %50’si ortalamanın sağında (yani ortalamadan büyük) olarak yer alır.
  • Normal dağılımın eğrisi altında kalan alanın değeri 1’dir.
  • Gözlemlerin; %68,26’sı μ ± 1σ; yani ortalama ± 1 * standart sapma, %95,44’ü μ ± 2σ; yani ortalama ± 2 * standart sapma, %99,74’ü μ ± 3σ; yani ortalama ± 3 * standart sapma sınırları arasında yer alır.
  • Her bir ortalama (μ) ve standart sapma (σ) değerine karşılık farklı bir eğri söz konusudur.
  • Ortalama ve standart sapma, normal dağılımın iki tanımlayıcısıdır.

Dağılımın olasılık yoğunluk fonksiyonu aşağıdaki gibidir. Bu formülde e = 2,71828, π = 3,14159 değerli sabitler; μ dağılımın ortalaması yani beklenen değeri ve σ dağılımın standart sapması, σ2 ise dağılımın varyansıdır.

Standart Normal Dağılım

Normal dağılımın ortalaması 0, standart sapması 1 olan özel bir halidir. X rasgele değişkeni eğer normal dağılıma sahipse, “Z” skorları ile temsil edilen x değerleri de standart normal dağılım gösterir. Zi = (Xi – μ) / σ

Burada Zi  veri kümesinin standartlaştırılmasıyla elde edilen skorları temsil eder. Standart normal dağılımın olasılık yoğunluk fonksiyonunun formülü ve eğrisi ise şu şekildedir:

Not: Normal dağılım oldukça geniş bir konu olduğundan; normal dağılıma yaklaşımlar, normallik dönüşümleri, normal dağılımda alan hesaplaması ve normal dağılım tablosunun kullanılması gibi pek çok konu bu yazının kapsamı dışında bırakılmıştır. Sadece dağılım tanıtılmak istenmiştir. Normal dağılım, istatistik kuramında oldukça önemlidir. Bu dağılım hipotez testlerimizin temel varsayımına konu olmaktadır. Kısacası araştırma konumuz gereği eğer istatistiksel bir analiz söz konusuysa başvuru kaynağımız normal dağılım olmaktadır. Bu sebepledir ki kullanım alanı hemen hemen her yerde karşımıza çıkar.

Student’in t Dağılımı

Bu dağılımın adı, çalıştığı bira fabrikasındaki koşullar yüzünden kendi adıyla akademik çalışmalarda yer alamayan ve “Student” takma adıyla akademik yayınlar yapan İngiliz İstatistikçi ve Kimyager William Sealy Gosset’in (1876-1937) onuruna verilmiştir. Dağılım ilk olarak Alman Matematikçiler Friedrich Robert Helmert (1843 – 1917) ile Jacob Lüroth’un (1844 – 1910) “hatalar teorisi” üzerine yapmış oldukları çalışmalarında ortaya çıkmıştır. Fakat Gosset bu dağılımı küçük örneklemler (n < 30) üzerine çalışarak genişletmiştir.

Bu dağılım da aslında normal dağılım gibi ortalama etrafında simetrik olarak dağılır. Fakat eğrinin şekli normal dağılıma göre daha düzdür. Yani bu dağılımın eğrisi normal dağılıma göre daha düşük yüksekliğe ve daha geniş bir yayılıma sahiptir. Eğri altında kalan alanın toplamı 1’dir ve eğri yatay eksene asimptotiktir.

Dağılım serbestlik derecesi adı verilen parametreye bağlı olarak şekillenmekte. Serbestlik derecesi (df) ise “örneklem boyutu – 1” olarak hesaplanır. Yani df = n – 1’dir. Dolayısıyla örneklem boyutu büyüdükçe t-dağılımı, normal dağılıma yakınsar. Dağılımın olasılık yoğunluk fonksiyonu; varyansın tahmin edicisi olan örneklem standart sapması “s”, verilerin ortalaması X, evren ortalaması μ ve veri sayısı n olmak üzere;

olarak hesaplanır. Tıpkı normal dağılımın kullanım alanının geniş olması gibi bu dağılımın kullanımı da geniş yelpazeli bir yayılım gösterir. Özellikle veri sayısının 30’dan küçük olduğu durumlarda işlevselliği ve etki gücüyle istatistiksel analizlerde kritik rol oynar.

Ki-Kare (Chi-Square) Dağılımı

Çok sevimli ve oldukça pozitif bir dağılımla karşı karşıyayız. Neden mi pozitif? Çünkü bu dağılım adından da anlaşılacağı gibi (karesel form) asla negatif olamıyor ve eğrisinin şekli pozitif çarpık!

Dağılımın ortalaması serbestlik derecesine (sd), varyansı ise serbestlik derecesinin (sd) 2 katına eşittir; bu yüzden küçük örneklemlerde pozitif çarpık bir yayılım gösterirken örneklem büyüklüğü arttıkça çarpıklık azalır ve normal dağılıma yakınsar. İstatistik değerinin formülü “χ2” olarak sembolize edilir. E(x) = sd ve Var(x) = 2* sd

Dağılımın olasılık yoğunluk fonksiyonu aşağıdaki gibidir:

Yukarıdaki formülde Γ, gama fonksiyonu bulunduğunu ve özel sayı değerlerini aldığını gösteren sembolken; k ise serbestlik derecesini ifade eder.

χ2 = (Gözlenen Sıklık – Beklenen Sıklık)2 / Beklenen Sıklık

{Beklenen Sıklık = (satır toplamı * sütun toplamı) / genel toplam}

Yukarıdaki gibi formüle edilen, gözlenen ile beklenen sıklıklarla oluşturulan çapraz tabloların analizinde sıklıkla karşımıza çıkan ve oldukça önemli bir dağılım olan ki-kare dağılımının kullanım alanı da çok geniştir. Bir sonraki başlıkta anlatacağım F dağılımı, iki farklı ki-kare dağılımının birbiriyle oranlanmasıyla elde edilir. Demek oluyor ki ANOVA diye duymuş olduğunuz varyans analizi konusuna bu dağılım kaynaklık etmektedir.

Bunun dışında herhangi bir dağılımın bir kuramsal dağılıma uygunluğunu (Normal, Binom, Düzgün vs.) test etmede yani istatistikte “uyum iyiliği testleri (goodness of fit test)” alanında, çapraz tabloların test edilmesinde mesela iki nitel değişkenin bağımsızlık ve ilişki (korelasyon) analizinde ya da homojenlik testlerinde yaygın bir şekilde kullanılmaktadır.

F Dağılımı

Bu dağılım ünlü İstatistikçiler Sir Ronald Aymler Fisher (1890 – 1962) ve George W. Snedecor (1881 – 1974) tarafından öne sürülmüştür ve meşhur “varyans analizinin” temelini oluşturur. Bu sebeple Fisher-Snedecor dağılımı olarak da bilinmekte.

F = (χ12 / sd1) / (χ22 / sd2)

F değeri, örneklemden elde edilen iki varyans tahmin edicisinin oranlanması ile elde edilir ve elbette varyans tahmin edicileri farklı testlerde farklı şekillerde hesaplanır. Dolayısıyla hesaplanan bu F değeri kuramsal olarak F dağılımına uyar. Varyans hesabı gereği bu dağılım da oldukça pozitif bir dağılımdır. Yani F değeri 0’dan büyük değerler almakta.

Dağılımın eğrisinin merkezi 1’e yakındır ve şekli pozitif çarpıktır. Bir oranla hesaplandığından dağılımın şekli 2 farklı serbestlik derecesi tarafından belirlenir ve farklı serbestlik derecelerine karşı farklı eğriler oluşur. Dağılımın olasılık yoğunluk fonksiyonu ile beklenen değeri ve varyansı aşağıdadır:

E(x) = v1 / (v1 – 2); v1 > 2

Var(x) = [v12(2v1 + 2v1 -4)] / [v2(v1 – 2)2(v1 – 4)]; v1 > 4

Dağılım özellikle bağımlı ve bağımsız ortalamaların karşılaştırılmasında karşımıza çıkan çok yönlü (MANOVA), iki yönlü (İki Yönlü ANOVA) ve tek yönlü (Tek Yönlü ANOVA) varyans analizlerinin yani hipotez testlerinin ayrıca araştırma desenleri ve metotlarının olmazsa olmaz kuramsal dağılımıdır.

Normal dağılım ve t dağılımı simetrik bir dağılım olduğundan hem pozitif hem de negatif değerler alabilmektedir; oysaki χ2 ve F dağılımları pozitif çarpık dağılımlar olduğundan sadece pozitif değerler alırlar.

Üstel Dağılım

Aslında bu dağılım “üstel dağılım ailesinden” gelmekte. Dağılımın bağlı bulunduğu bu aile; Normal, Gama, Ki-kare, Poisson, Geometrik gibi pek çok yaygın olasılık dağılımlarını içerir. Dağılımın tek parametresi “λ” (λ > 0) olup olasılık yoğunluk fonksiyonu aşağıdaki gibi yazılır:

Fakat “β = 1 / λ” olarak yeniden parametrelendirilip yazılınca dağılımın olasılık yoğunluk fonksiyonu şu şekle dönüşür:

Dağılımın beklenen değeri ve varyansı aşağıdaki formülde yer alır.

E(x) = 1 / λ   ve  Var(x) = 1 / λ2

Bu dağılım özellikle bir Poisson sürecinde –olayların sabit bir ortalama ile bağımsız olarak ortaya çıktığı durumlarda- olaylar arasındaki zaman ilişkilendirmesini gösterir. Fizikte radyoaktif bozunmayı ölçmede, mühendislikte montaj hattında arızalı bir parçanın alınmasına ilişkin geçen süreyi hesaplamada; ayrıca Bernoulli ve Geometrik dağılımların sürekli dağılımlara uygulanmasında ve üstel dağılım ailesine ait diğer kuramsal dağılımların geçtiği alanlarda yaygın bir kullanıma sahiptir.

Lojistik Dağılım

Şekil olarak normal dağılım eğrisine benzese de lojistik dağılımın eğrisi daha geniş kuyruklara sahip olduğundan normal eğriye göre daha basık bir yapıdadır. Dağılımın olasılık yoğunluk fonksiyonu ise β ölçek parametresi olmak üzere şu şekildedir:

f(x) = 1 / [1 + exp(-(x – μ)/ β];   -∞ < x < +∞ ve β > 0

Dağılımın beklenen değeri ve varyansı ise E(x) = μ ve Var(x) = (π2 β2)/3 olarak yazılır.

Dağılım; büyümeyi modellemeden lojistik regresyon analizine, fizikten hidrolojiye, satranç puanı derecelendirmelerinden spor modellemelerine, logit modellerden yapay sinir ağlarına kadar oldukça geniş bir kullanım alanına sahiptir.

Weibull Dağılımı

Son olarak tanıtmak istediğim bu dağılım da yukarıdaki grafikten görüleceği gibi pozitif çarpık bir dağılımdır. Üstel ve normal dağılım gibi diğer dağılımlara kolaylıkla geçiş sağladığı için bu olasılık dağılımı işlevselliği bakımından oldukça önemlidir. Dağılım, İsveçli Mühendis ve Matematikçi Waloddi Weibull (1887 – 1979) tarafından 1939 yılında literatüre sunulmuştur. Olasılık yoğunluk fonksiyonu aşağıdaki gibidir:

Dağılımda β = 1 ve γ = 0 alınırsa parametresi λ = 1/ γ olan üstel dağılıma dönüşür. Beklenen değeri ve varyansı – Γ değeri gama değeri olmak üzere – şu şekildedir:

E(x) = γ + δΓ(1 + 1/β)

Var(x) = δ2(Γ(1 + 2/β)) – Γ(1 + 1/β)2

Dağılım; mühendislikte bozulma sürelerine kadar geçen süreyi hesaplamada, bekleme modellerinde, tıpta sağkalım analizlerinde (özellikle kanser araştırmalarında), radyoaktivite yoğunluğunu bulmada, güvenilirlik çalışmalarında, meteorolojide hava tahminlerini modellemede ya da radar sistemlerinin modellenmesinde gibi pek çok alanda geniş bir kullanıma sahiptir.

Kaynakça

Bu yazı Prof. Dr. Fikri Akdeniz’in “Olasılık ve İstatistik” kitabı ile Prof. Dr. Reha Alpar’ın “Uygulamalı İstatistik, Geçerlilik ve Güvenilirlik” kitabı temel alınarak hazırlanmıştır.

Matematiksel

Olgun Duran

Ömür boyu öğrencilik felsefesini benimsemiş amatör tiyatro oyuncusu ve TEGV gönüllüsü; kitaplarından, doğaya hayranlığından, yeni yerleri görmekten, gittiği yerlerin kültürünü keşfetmekten ve bunların uğruna çabalamaktan vazgeç(e)meyen kişi...  

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.