OLASILIK / İSTATİSTİK

İstatistik Biliminde Kullanılan Bazı Temel Kavramlar

“İstatistikçi olmanın en iyi yanı, herkesin arka bahçesinde oynayabilmenizdir.” - John TUKEY

İstatistik bilimiyle bir şekilde karşılaşanlar; bu alanın oldukça sinir bozucu olduğunu, konularının sanki uzaydan inmişçesine karışık geldiğini (nitekim pek de haksız sayılmazlar örnek uzaylar bizim işimiz) ve hiçbir şey anlamadıklarını söylerler.

Bana göre burada ana sorun, istatistik öğretiminin en temel kavramdan başlanarak yapılmaması ve anlaşılmayan kavramlar üzerinden istatistik dersinin inşa edilmesidir. İstatistik literatüründe yer alan ve evrensel bir istatistik dili oluşturan bu kavramların ne olduğu iyi anlaşılırsa, işin keyifli bir yanını görme ihtimaliniz de artacaktır. Çünkü istatistik her yerde ve her şeyde karşımıza çıkmaktadır; yani dünyada gerçek bir şeyleri ararken istatistikle yol almaktayız.

Belirli bir günde markete giden müşteri sayısının dağılımı, talep edilen ürünlerin dağılımı, bir kavşakta meydana gelen kaza sayılarının dağılımı, bir virüsün nasıl yayıldığının dağılışı gibi sayılamayacak çoklukta örnekler sunarak, hayatımızın birebir içinde olan istatistiğin önemini size aktarabilirim.

İstatistiksel analizlerde yapılan hatalar

İstatistiksel analizlerde bilinçli ya da bilinçsiz en çok yapılan hata; analize başlarken seçilen testin varsayımlarının kontrol edilmemesidir. Bir istatistiksel testi uygulamaya karar vermeden önce o testin sahip olduğu varsayımlarını test etmek oldukça önemlidir.

Sıklıkla karşıma şöyle diyen bilim insanları çıkmakta: yayınlarda hep ANOVA (Varyans Analizi) yapılmış (başka testlerde olabiliyor, burada ANOVA örnek), çalışmamı yayınlatabilmem için ben de mecbur kaldım.

İşte bu ve bunun gibi sebepler yüzünden yayınlanan çalışmaların istatistiksel analiz kısımları oldukça hatalı ve bilimsel katkı sunmayı bırakın yanlış yönlendirmelerle dolu olduğundan etik dışı çalışmalar uluslararası literatürde yer almakta! Bu duruma engel olmak için araştırmacılar çalışmalarında istatistik uzmanından yardım almalıdır.

Bu yazıda ilk önce konuyu anlaşılır hale getirmek amacıyla bazı temel istatistik kavramları açıklayıp sonraki yazımda ise kuramsal olasılık dağılımlarının ilk türü olan kesikli olasılık dağılımları hakkında bilgi vereceğim.

Okuma Önerisi: İstatistik: Belirsizlikten Belirliliğe Doğru Yol Gösteren Bir Bilim Dalı

Bazı Temel İstatistik Kavramları

Örnek Uzay (Space Sample)

Yapılan deneylerin ya da gözlemlerin mümkün olan sonuçlarına verilen addır. Yani deney ya da gözlemlerle elde edilen tüm örnek noktalarını içeren evrensel kümeye “örnek uzay” adı verilir. Genellikle “S” ile gösterilir.

Eğer örnek uzay, sonlu sayıda elemandan oluşursa “sonlu örnek uzayı”, sonsuz sayıda elemandan oluşan bir kümeyse “sonsuz örnek uzayı” adını alır.

Örneğin hilesiz bir zar atıldığında ortaya çıkabilecek tüm sonuçların kümesi S = {1,2,3,4,5,6} olup S’ye örnek uzay denmekte.

Olay Kavramı (Event)

Bir örnek uzayın her bir alt kümesi bir olaydır. Eğer bir tane elamandan oluşan kümeyse “basit olay”, birden fazla elemandan oluşan kümeyse “bileşik olay” olarak adlandırılır.

Bir deney ya da gözlem aynı koşullar altında birçok kez tekrar edildiği halde sonuçlar bir kurala bağlı olmadan her defasında farklı çıkıyorsa bu olaya “rasgele olay” adı verilir ki rasgelelik kavramı istatistiksel analizlerin olmazsa olmaz koşuludur. İstatistik biliminde etik kavramı rasgelelik kavramı temelinde şekillenir.

Mesela hilesiz bir zar atıldığında çift sayı gelme olasılığının kümesi A ile gösterilsin. A = {2,4,6} olup burada A, bir olay kümesini temsil eder.

Deneme Sayısı (Number of Trials)

Bir olayın ne kadar gerçekleştiğinin sayısıdır; örneğin paranın 50 kez atılması ya da bir öğrencinin 4 kere sınava girmesi gibi.

Olasılık (Probability)

Kısaca bir şeyin gerçekleşmesinin ne kadar olası olduğunu ölçmeye yarayan kavram denebilir. Bir olayın gerçekleşme sıklığının deneme sayısına bölümüyle elde edilir.

İstatistik bilimi, olasılıklarla açıklanan bir takım konular üzerinden şekillenmiştir. Şans oyunlarında bu hafta 4 rakamının çıkma olasılığı ya da gireceğiniz sınavdan tam puan alma olasılığı gibi hayatta başımıza gelen ya da gelecek olan şeyler olasılıklarla karşımıza çıkar.

Unutulmaması gereken nokta, olasılık 0’dan küçük ve 1’den büyük değerler alamaz. 0 olasılık değeri “imkânsız olayı”, 1 olasılık değeri ise “kesin olayı” bildirir.

Rasgele Değişken (Random Variable)

Örnek uzaydaki her rasgele olaya “sayısal değer” atayan fonksiyondur. Genellikle “X” ile gösterilir.

Şöyle örneklendireyim: Hilesiz bir zar 2 kere atılsın. X rasgele değişkeni yazıların sayısını göstersin. Öncelikle örnek uzayı yazalım.

S = {TT, YT, TY, YY } olur. Dolayısıyla X rasgele değişkeninin fonksiyonu ise Dx = {0,1,2} olacaktır.

Eğer ilk yazı gelene kadar yapılacak atışların sayısı olarak X rasgele değişkenini tanımlarsak;

S = {TT, YT, TY, YY, TTTTTY, TTTTTTTTY, YTTTTT, TTTTTY… } örnek uzayından X rasgele değişkeni Dx = {0,1,2,3,4,5,…} olarak elde edilir.

2 türlü rasgele değişken vardır: kesikli ve sürekli. X rasgele değişkeni sayılabilir sonsuzlukta değer aldığında adına “kesikli rasgele değişken” denmekte. Bir kütüphaneden ödünç alınan kitap sayıları ya da bir markette satılan yumurta sayılarının dağılımları kesikli olasılık dağılımlarına örnek olarak sunulabilir.

Rasgele değişkenin hangi tür olduğuna göre bir istatistikçi farklı denklemler aracılığıyla ortalama, medyan, mod, varyans vb. gibi tanımlayıcı istatistikler hesaplayabilmekte ve olasılık dağılımına karar verebilmektedir.

Sürekli değişken kavramı ise bir sonraki yazıda ele alınacaktır.

Başarı (p)

Bir olayın deneme sayısı kadar gerçekleşmesiyle, o olayın kaç defa gerçekleştiğinin deneme sayısına bölümü bir olasılık belirtir ve bu olasılığa “başarı olasılığı (p)” adı verilir. Örnek olarak; bir olay bir zar 100 kez atıldığında 17 kere 4 gelmesi olarak tanımlansın. Bu durumda başarı olasılığı p= 17/100 olacaktır.

Bu olasılık, her zaman pozitif olayları tanımlamak için kullanılmaz. Bir kavşakta meydana gelen kaza sayısı da başarı olasılığı olarak ele alınabilir. Burada önemli olan kavrama yüklenen istatistiksel anlamdır; olayın tanımında yer alan negatif ya da pozitif durumun gerçekleşmesini başarı olarak adlandırıyoruz kelimenin çağrıştırdığı olumlu ya da olumsuz anlamı değil.

Başarısızlık (q)

Bir olayın deneme sayısı kadar gerçekleşmesiyle birlikte olayın kaç defa gerçekleşmediğinin deneme sayısına oranıdır ve “başarısızlık olasılığı (q)” olarak adlandırılır. Olasılık 1’den büyük olamayacağı için  p + q = 1 olduğundan q = 1-p formülüyle de hesaplanır.

Beklenen Değer (Expected Value)

Bir kitlenin dağılımı hakkında bilgi sahibi olmaya yarayan parametrelerden biridir. Ortalama da denmektedir. Varyans ile birlikte ilgilenilen kitlenin istatistiksel ölçütlerini oluşturur. Olasılıklar yardımıyla süreç boyunca hangi sonuçlara ulaşılabileceğinin beklendiği değerdir. Genellikle “E(x)” ya da “μ” ile gösterilir.

Varyans

Varyans, beklenen değer yani ortalamanın etrafında istatistiksel yayılımın bir ölçüsüdür. Genellikle “Var(x)” ya da “σ” ile gösterilir. Ortalama, bir dağılımın merkezi noktasına ulaşmaya çalışırken; varyans ise değerlerin ortalamadan ne kadar uzaklıkta olduğunu ölçmeye yarar. Varyansın karekökü “standart sapma” olarak adlandırılır.

Olasılık dağılımları, bir deneyde çeşitli mümkün sonuçların gerçekleşme olasılıklarını matematiksel olarak anlatmaya yarayan fonksiyonlardır. Bu dağılımlar aynı zamanda modellemeye dayalı veriler üzerine kararlar almak için rasgele değişken türlerini tanımlamada da işe yarar.

Kesikli Olasılık Fonksiyonu ve Dağılımı

X sonlu sayıda x1, x2, x3 ,…, xn değerlerini f(xi) = P(X = xi) (i = 1,2,3,… xn) olasılıkları ile alabilen bir rasgele değişkense aşağıdaki iki koşulu sağlayan f(x) fonksiyonuna X’in olasılık fonksiyonu denir.

  1. P(X = xi) ≥ 0
  2. Sni=1 P(X = xi) = 1

Yani her olası değer, sıfırdan büyük bir olasılığa sahiptir. Ayrıca, tüm olası değerlerin olasılıklarının toplamı 1 olmalıdır. Toplam olasılık 1 olduğundan, her olay için değerlerden birinin gerçekleşmesi gerekir.

X rasgele değişkeninin verilen bir değere eşit ya da küçük çıkma olasılığını veren fonksiyona ise dağılım fonksiyonu adı verilmekte ve F(x) olarak gösterilmektedir. Ayrıca bu fonksiyon “kümülatif yani birikimli” dağılım fonksiyonu olarak da adlandırılır ve F(x) = P{X ≤ x} olarak da yazılır.

Bir sonraki yazımda bazı kesikli olasılık dağılımları hakkında bilgi bulacaksınız.

Kaynakça

Bu yazı, Değerli Hocam Fikri Akdeniz’in “Olasılık ve İstatistik” kitabından ve ders notlarından derlenmiştir.

https://www.britannica.com/science (Erişim Tarihi: 09.10.2020)

https://encyclopediaofmath.org/  (Erişim Tarihi: 11.10.2020)

https://mathworld.wolfram.com/ (Erişim Tarihi: 11.10.2020)

Matematiksel

Olgun Duran

Ömür boyu öğrencilik felsefesini benimsemiş amatör tiyatro oyuncusu, TEGV'de gönüllü aktivist; kitaplarından, doğaya hayranlığından, yeni yerleri görmekten, gittiği yerlerin kültürünü keşfetmekten ve bunların uğruna çabalamaktan vazgeç(e)meyen kişi...  

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu