Sınıflandırmada Kullanılan Bir Ölçüt: ROC Eğrisi

Makine öğrenmesinde sınıflandırma, veri kümeleri üzerinde, yeni bir girdi verisinin eğitim sonucu belirlenen sınıflardan hangisine ait olduğunu belirleme sorunudur. İkili sınıflandırma ise, bir girdi verisi için iki çıktıdan birini üreten bir sınıflandırma yöntemidir. Sınıflandırmada ve dolayısıyla model performansını değerlendirmede de kullanılan pek çok istatistiksel yöntem vardır. Bunlardan biri de ROC (Receiver Operating Characteristic Curve) eğrisidir.

İkili sınıflandırma pozitif sınıf ve negatif sınıf olarak ikiye ayrılmaktadır. Test sonuçlarına göre bir hastanın bulaşıcı bir hastalık taşıyıp taşımadığını belirleyen bir model düşünün. Test sonucu negatifse hastanın sağlıklı olduğu, test sonucu pozitifse kişinin hasta olduğu kabul edilecektir. Ancak her zaman işin içine hatalar karışacaktır.

Bunun sonucunda sağlıklı bir bireyin test sonucu pozitif olarak ya da tam tersi biçiminde sınıflandırılabilir. Gerçek Pozitif (TP) değeri, gerçekten hasta olup da test sonucunda da hasta çıkan bireyleri sayısı anlamına gelir. Gerçek Negatif (TN) değeri ise gerçekten sağlam olup test sonucunda da sağlam çıkan bireylerin sayısını gösterir. Yanlış Pozitif (FP) değeri, gerçekten sağlam olup testin yanlışlıkla hasta diye nitelendirdiği bireylerin sayısını verecektir. Yanlış Negatif (FN) değeri ise gerçekten hasta olup testin yanlışlıkla sağlam dediği bireyleri sayısını gösterir.

İkili bir sınıflandırıcıdan dört olası sonuç çıkar.

İlk olarak 1940’larda Pearl Harbor saldırısının ardından radyo sinyallerinin tespiti için ayırıcı sistemlerin incelenmesinde kullanılan ROC eğrileri bir test için en uygun kesme noktasını seçmek amacıyla kullanılır. En iyi kesim, en düşük yanlış pozitif oranıyla birlikte en yüksek gerçek pozitif orana sahiptir.

Günümüzde ROC analizi, tanısal karar vermenin maliyet/fayda analiziyle doğrudan ilişkilidir. Bu nedenledir ki, başta tıbbi araştırmalar olmak üzere 1950’li yıllardan itibaren günümüze kadar psikanaliz, epidemiyoloji, meteoroloji, sosyal bilimler, makine öğrenimi, veri madenciliği ve model performans değerlendirmesi olmak üzere pek çok alanda yaygın kullanıma sahiptir.

ROC Eğrisinin Arka Planı

Eğri, çeşitli eşik ayarlarında sınıflandırma problemleri için bir performans ölçümüdür. İkili sınıflandırma sistemlerinde ayrım, eşik değerinin farklılık gösterdiği durumlarda duyarlılığın kesinliğe olan oranıyla ortaya çıkmaktadır.

Bu eğri, **duyarlılık ve seçicilik arasındaki dengeyi** değerlendirmek için kullanılmıştır.

ROC daha basit anlamda Doğru Pozitifin, Yanlış Pozitife oranı olarak da ifade edilebilmektedir. Doğru pozitif değeri, Gerçek Pozitif değerinin; Gerçek Pozitif değeri ile Yanlış Negatif değerinin toplamına oranı olarak bulunur. Bu orana duyarlılık da denmektedir. Bunu şu şekilde gösterebiliriz. Doğru Pozitif = (Gerçek Pozitif) / (Gerçek Pozitif + Yanlış Negatif) = Duyarlılık

Yanlış Pozitif oranı ise; Yanlış Pozitif değerinin Yanlış Pozitif değeri ile Doğru Negatif değerinin toplamına oranı biçiminde olur. Seçicilik (Özgüllük) değeri ise; Seçicilik = Doğru Negatif / (Doğru Negatif + Yanlış Pozitif) biçiminde olur.

Eğri Altında Kalan Alan (AUC): ROC Puanı

ROC eğrisi altında kalan alan ROC puanı olarak tanımlanmaktadır. Bu puan, model başarısının özeti olarak da sunulmaktadır. Grafiğin x eksenindeki daha küçük değerler, daha düşük yanlış pozitifleri ve daha yüksek gerçek negatifleri gösterir.

Grafiğin y eksenindeki daha büyük değerler, daha yüksek gerçek pozitifleri ve daha düşük yanlış negatifleri gösterir. ROC eğrisi, değişen sınıflandırma eşik değerlerine göre doğru pozitiflerin sayısının, yanlış pozitiflerin bir fonksiyonu olarak çizilmesiyle oluşmaktadır.

Puan 1 (bir) olduğunda anlamı, pozitif değerler mükemmel bir şekilde negatif değerlerden ayrılmış demektir. Ayrıca ROC puanı 0 (sıfır) olduğunda ise herhangi bir pozitif değer bulunamadı anlamına gelir. Başka bir deyişle, tahminleri yüzde yüz yanlış olan bir modelin ROC puanı 0 olur. Ancak yüzde yüz doğru olan bir modelin ROC puanı 1 olacaktır.

ROC Puanının Anlamı

ROC puanı 0.5 olduğunda, sınıflandırıcı pozitif ile negatif değerler arasında ayırım yapamaz. Bu durumda 0<ROC puanı<0.5 arasında olması modelin başarısız olduğunun göstergesi iken; 0.5<ROC puanı<1 aralığında ise sınıflandırıcının pozitif ile negatif değerleri birbirinden ayırma olasılığı yüksek olacak anlamına gelir. Bunun nedeni bu aralıkta, sınıflandırıcının Yanlış Negatifler ve Yanlış Pozitiflerden daha fazla sayıda Doğru Pozitif ve Doğru Negatif tespit edebilmesidir.

Sonucunda ROC eğrisi, ikili sınıflandırmaların bulunduğu gruplara ait veri sayılarının yaklaşık olarak birbirine eşit olduğu durumlarda, sınıflandırma için daha başarılı sonuçlar vermektedir. Dolayısıyla bu güzel ölçütü kullanırken istatistiksel kısıtlamalarına dikkat etmemiz, sonuçları yorumlamamız anlamında daha başarılı olmamızı sağlayacaktır.

Kaynaklar ve ileri okumalar

Zou KH, O’Malley AJ, Mauri L. Receiver-operating characteristic analysis for evaluating diagnostic tests and predictive models. Circulation. 2007 Feb 6;115(5):654-7. doi: 10.1161/CIRCULATIONAHA.105.594929. PMID: 17283280.
Mandrekar JN. Receiver operating characteristic curve in diagnostic test assessment. J Thorac Oncol. 2010 Sep;5(9):1315-6. doi: 10.1097/JTO.0b013e3181ec173d. PMID: 20736804.
Receiver operating characteristic.; (Erişim Tarihi: 27.12.2021) https://en.wikipedia.org/

Size Bir Mesajımız Var!

Matematiksel, 2015 yılından beri yayında olan ve Türkiye’de matematiğe karşı duyulan önyargıyı azaltmak ve ilgiyi arttırmak amacıyla kurulmuş bir platformdur. Sitemizde, öncelikli olarak matematik ile ilgili yazılar yer almaktadır. Ancak bilimin bütünsel yapısı itibari ile diğer bilim dalları ile ilgili konular da ilerleyen yıllarda sitemize dahil edilmiştir. Bu sitenin tek kazancı sizlere göstermek zorunda kaldığımız reklamlardır. Yüksek okunurluk düzeyine sahip bir web sitesi barındırmak ne yazık ki günümüzde oldukça masraflıdır. Bu konuda bizi anlayacağınızı umuyoruz. Ayrıca yazımızı paylaşarak da büyümemize destek olabilirsiniz. Matematik ile kalalım, bilim ile kalalım.